Kopier begge samlinger til en enkelt samling (medtag et diskriminatorfelt, hvis det er nødvendigt, så du kan fortælle, hvilken slags dokument du har i hver instans).
Kør map-reduce på den samling
I Map skal du udsende ordet som nøglen og en værdi, sig {instance:1, dict:0}
eller {instance:0, dict:1}
afhængigt af om dokumentet, der kortlægges, er en instans eller en ordbogspost. (Du kan tilføje flere felter her til værdierne efter behov.)
I Reducer skal du samle pointene (som sædvanligt).
Lav nu en forespørgsel på udkig efter instance > 0
og dict > 0
og du har alle de ord, der er i begge.