sql >> Database teknologi >  >> RDS >> Mysql

Jaro-winkler funktion:hvorfor matcher den samme score meget ens og meget forskellige ord?

Jaro-Winkler-distanceformlen er forspændt mod strenge med en fælles begyndelse. For eksempel Valentina og Valentiria .

Det har også nogle ikke så intuitive "regler" (se wikipedia ).

Du bør nok først bestemme, hvilken slags ulighed du forventer, og derefter lede efter en passende afstandsformel. For eksempel er "angleworm" og "angelworm" en meget sandsynlig fejl i skrift, så afstanden mellem de to strenge burde være lav. Mens det er mindre sandsynligt, at "der" og "tre" ikke matcher, og "ether" endnu mere. Med længere anagrammer kan Jaro-afstanden være nøjagtig den samme, og selv Winkler-korrektionen slår muligvis ikke ind.

Som du kan læse på denne side (fremhæv min)



  1. Hvordan validerer man e-mail-adresse ved hjælp af PL/SQL?

  2. Afkorte alle tabeller i en MySQL-database i én kommando?

  3. ORA-12170:TNS:Forbindelsestimeout opstod

  4. Hvordan skriver man en (MySQL) LIMIT i SQL Server?