Problemet du støder på er, at unicode tillader flere måder at komponere det samme symbol på. Python-modulet unicodedata
giver en funktion normalize
der giver dig mulighed for at konvertere unicode-repræsentationer til en fast formular
(f.eks. NFC)
from unicodedata import normalize
S1 = b'\xc4\x83\xcc\x83'.decode('UTF-8')
S2 = b'\xe1\xba\xb5'.decode('UTF-8')
print(normalize('NFC', S1).encode('UTF-8'))
print(normalize('NFC', S2).encode('UTF-8'))
I dit eksempel vises tripadvisor i NFD-form, mens notesblok brugte NFC.