sql >> Database teknologi >  >> RDS >> Mysql

Få de mest gentagne lignende felter i MySQL-databasen

Det, du taler om, er en tekstklyngeproces. Du forsøger at finde lignende stykker tekst og vælger vilkårligt en af ​​dem. Jeg er ikke bekendt med nogen database, der udfører denne form for tekstmining.

For det du beskriver, ville en ret grundlæggende tekstmineteknik sandsynligvis fungere. Opret en term-dokument matrix med alle ordene undtagen brugernavnene. Brug derefter singularværdinedbrydning for at få den største singularværdi og vektor (dette er den første hovedkomponent i korrelationsmatrixen). De lignende aktiviteter bør samles langs denne linje.

Hvis du har et begrænset ordforråd og har termerne i en tabel, kan du måle afstanden mellem to handlinger ved andelen af ​​ord, der overlapper. Har du en liste over alle ord i handlingerne?



  1. opdatere række uden at slette tidligere værdier i mysql

  2. MyBatis ekstra komma i opdateringsforespørgsel

  3. SQL Server v.Next:STRING_AGG Performance, del 2

  4. Hvordan gemmer man et stort antal poster i MySql-databasen?