sql >> Database teknologi >  >> NoSQL >> MongoDB

hvordan gemmer man dataframe i mongodb ved hjælp af pyspark?

En effektiv måde at skrive til mongodb fra pyspark på er at bruge MongoDB Spark Connector . Connector konverterer dataene til BSON-format og gemmer dem til mongodb. Lad os sige, at du har en spark-dataramme ved navn df, som du vil gemme i mongodb. Du kan prøve:

from pyspark.sql import SparkSession, SQLContext
from pyspark import SparkConf, SparkContext
sc = SparkContext()
spark = SparkSession(sc)   


df.write.format("com.mongodb.spark.sql.DefaultSource").mode("append").option("spark.mongodb.output.uri","mongodb://username:[email protected]_details:27017/db_name.collection_name?authSource=admin").save()

Hvis du bruger en notesbog, skriv dette øverst-

%%configure
{"conf": {"spark.jars.packages": "org.mongodb.spark:mongo-spark-connector_2.11:2.3.2"}}

Hvis du bruger kommandoen spark-submit:

spark-submit --conf spark.pyspark.python=/usr/bin/anaconda/envs/py35/bin/python3.5 --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.1 file_name.py


  1. BsonSerializationException opstår, hvis elementnavnet slutter med et punktum

  2. Hvad er den maksimale dybde af indlejrede dokumenter tilladt i MongoDb?

  3. Django Selleri få opgavetælling

  4. connect er ikke en funktion ved tilslutning til mongodb