Beklager jose at høre, at du har et problem med stikket.
Oplysninger om partitionering kan findes på Spark-connector-dokumentationssiden a> . Indsend venligst en billet i Docs jira-projektet hvis du føler noget mangler eller er uklart, kan det virkelig hjælpe fremtidige brugere!
Standardpartitioneringen er en tynd indpakning omkring MongoSamplePartitioner
. Det opdeler en samling i størrelsespartitioner baseret på statistisk stikprøve af samlingen.
MongoShardedPartitioner
bruger shardKey
at generere partitionerne. Som standard vil den bruge _id
som nøglen. Du skal muligvis konfigurere denne værdi.
Bemærk: Hashed shardkeys er ikke understøttet af MongoShardedPartitioner
da der i øjeblikket ikke er nogen måde at forespørge en samling mod den hash-værdi - så når den henter partitioner, vil den ikke returnere resultater. Jeg har tilføjet DOCS-12345
for at opdatere dokumentationen.
Det ser ud til, at der er et problem i din opsætning, hvor MongoShardedPartitioner
undlader at opdele samlingen som forventet og returnerer 0 resultater. Skemaslutning vil stadig fungere på grund af, hvordan den forespørger samlingen. Hvis det ikke er et config / hashed shardkey-problem, skal du indsende en fejl i Spark jira-projektet og jeg kan hjælpe med at identificere årsagen og frigive en rettelse til dig.