Få de mest gentagne lignende felter i MySQL-databasen

Det, du taler om, er en tekstklyngeproces. Du forsøger at finde lignende stykker tekst og vælger vilkårligt en af dem. Jeg er ikke bekendt med nogen database, der udfører denne form for tekstmining.

For det du beskriver, ville en ret grundlæggende tekstmineteknik sandsynligvis fungere. Opret en term-dokument matrix med alle ordene undtagen brugernavnene. Brug derefter singularværdinedbrydning for at få den største singularværdi og vektor (dette er den første hovedkomponent i korrelationsmatrixen). De lignende aktiviteter bør samles langs denne linje.

Hvis du har et begrænset ordforråd og har termerne i en tabel, kan du måle afstanden mellem to handlinger ved andelen af ord, der overlapper. Har du en liste over alle ord i handlingerne?