sql >> Database teknologi >  >> NoSQL >> MongoDB

Hvorfor Mongo Spark connector returnerer forskellige og forkerte tal for en forespørgsel?

Jeg løste mit problem. Årsagen til inkonsistente tællinger var MongoDefaultPartitioner som omslutter MongoSamplePartitioner som bruger tilfældige stikprøver. For at være ærlig er dette en ret mærkelig standard for mig. Jeg ville personligt foretrække at have en langsom, men en konsekvent partitioner i stedet for. Detaljerne for partitioneringsindstillinger kan findes i de officielle konfigurationsmuligheder dokumentation.

kode:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()


  1. Fatal fejl:Uopfanget undtagelse 'RedisException' med beskeden 'Redis-server gik væk'

  2. Er der en forklaringsforespørgsel til MongoDB Linq?

  3. Hvordan opretter man en distribueret lås med Redis?

  4. Mongoexport ved hjælp af $gt- og $lt-begrænsninger på et datointerval