Jeg tror, jeg har fundet problemet:mongodb-hadoop har en "statisk" modifikator på sine BSON encoder/decoder instanser i core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Når Spark kører i multithreaded-tilstand, prøver alle trådene at deserialisere ved hjælp af samme encoder/decoder-forekomster, som forudsigeligt har dårlige resultater.
Patch på min github her (har indsendt en pull-anmodning opstrøms)
Jeg er nu i stand til at køre en 8-kerne multithreaded Spark->mongo collection count() fra Python!