sql >> Database teknologi >  >> NoSQL >> MongoDB

Samme ord, men forskellige unicode-tegn

Problemet du støder på er, at unicode tillader flere måder at komponere det samme symbol på. Python-modulet unicodedata giver en funktion normalize der giver dig mulighed for at konvertere unicode-repræsentationer til en fast formular (f.eks. NFC)

from unicodedata import normalize

S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')

print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))

I dit eksempel vises tripadvisor i NFD-form, mens notesblok brugte NFC.




  1. Sådan mongoexport med ét felt

  2. I MongoDB, hvis samling droppes, falder indekser også automatisk?

  3. MongoDb - Skift type fra Int til Double

  4. Sådan finder du efter id i golang og mongodb