5 almindelige fejl at undgå, når du de-duperer dine data

Data er magt, og med den magt følger et stort ansvar. En af de største forhindringer i data er at identificere dubletter og de-duping.

Formålet med data-deduplikering er at eliminere eventuelle overflødige data i din virksomhed. Dubletter oprettes i alle områder af din virksomhed, såsom sælgeren, der indtaster en ny registrering uden at tjekke databasen først, en marketingmedarbejder, der uploader en liste over potentielle købere uden at tjekke, om posten eksisterer, og en kunde, der indtaster deres oplysninger igen, da de har glemt de har allerede en konto hos dig.

Datadeduplikering sikrer korrekt datahåndtering af sådanne registreringer, reduceret datalagring, mere effektiv marketingkommunikation og bedre forudsigelig analyse. Duplikerede registreringer kan faktisk have en enorm indvirkning på maskinlæring og datavidenskabelige poster ved teoretisk at give kunderne dobbelt så stor forudsigelseskraft og derfor skabe en skævhed i outputtet.

Men med enhver god idé følger risici, og inden for en de-duplikeringsstrategi, hvor data slettes det meste af tiden, kan der være iboende fejl.

In-line eller efterbehandling

Inline deduplikeringsprocesser de-duperer dataene, efterhånden som de behandles. Dette betyder, at det reducerer mængden af data med det samme, hvilket er fantastisk, men ofte har præstationsproblemer med mængden af ressource, der kræves for at køre, såsom strategi. Det betyder dog, at du har brug for langt mindre rå diskplads, da dataene faktisk aldrig sendes over i første omgang, da deduplikeringen udføres på frontend.

Det er vigtigt, at du sørger for, at du har processorkraften til inline deduplikering, og at det ikke påvirker ydeevnen. Den anden fejl er at antage, at der er nul tilfælde for at have dubletter. Der er legitime behov for at have dubletter i dit system. Årsagerne kan være fakturerings-, kundeservice-, salgs- og marketingsårsager, derfor er det en god idé at konsultere alle afdelinger, der rører ved dataene, før implementering af in-line behandling.

Algorithmer

Deduplikering er kun så god som de algoritmer, den tilføres, dvs. hvordan opdages duplikerede poster i første omgang? Lad os antage, at vi har 100 kopier af en fil på vores systemer, fordi hver medarbejder havde deres egen version. I stedet for at gemme flere kopier, fortæller god praksis, at du kun skal gemme én og få alle medarbejdere til at pege på det. Hvad hvis en af medarbejderne laver en ændring i deres egen fil, hvilket betyder, at den er lidt anderledes end de andre? Du risikerer at miste data. Det er vigtigt at sikre sig, at alle regler, du sætter, giver mening og ikke begynder at fjerne unikke datasæt ved en fejltagelse.

Der er et par almindelige algoritmer, der bruges til datadeduplikering, såsom SHA-1 eller MD5 og Binary Search Tree Structures, som er værd at gennemgå for at finde, hvad der er mest passende for dig.

Mens de-duping af datasæt i eksemplet ovenfor nemt kan løses af dataforskere. For salgs- og marketingrekorder er det lidt sværere. Tænk på, at forskellige virksomheder definerer dubletter forskelligt, det er ikke længere en opgave for dataforskeren, men snarere for lederne af forskellige afdelinger. Derfor er det første skridt at identificere, hvad der gør en duplikat. Tag for eksempel en detailgigant som Walmart. For distributionsselskaber vil hver Walmart-lokation blive betragtet som en unik post, men for et softwarefirma, der sælger til Walmart, vil de betragte alle lokationerne som dubletter, da de kun ønsker at sælge til hovedkontoret. Det samme kan siges om salg til P&G, hvor nogle virksomheder sælger individuelt til hvert mærke. Derfor ønsker de at holde dem alle adskilt og anvende forælder/barn-linket i stedet for at dedupere for at identificere de forskellige mærker. Før de-dupering skal du derfor sikre dig, at du har alle regler defineret, før du finder ud af den algoritme, der skal bruges til at de-dupere dataene.

Kryptering

Med databeskyttelse er det ofte sådan, at sikkerhedsteams vil have data krypteret, når de kommer ind i virksomheden, hvilket betyder, at det er umuligt at dedupere det, da alt er unikt i denne sammenhæng. Hvis du bruger replikerings- og krypteringsprodukter på linje med deduplikeringssoftware, er der en meget stor chance for, at filer bliver replikeret, da det simpelthen ikke kan vælge dem som unikke lagerblokke.

Databeskyttelsesprodukter er nogle gange opmærksomme på deduplikering, men det er vigtigt, at du overvejer, hvordan alt integreres.

Manuel deduplikering

De fleste virksomheder vil forsøge at dedupere deres database manuelt og optager en enorm mængde ressourcer og tid med en stor risiko for menneskelige fejl. Ud over det, med store datasæt, er det praktisk talt umuligt for manuelle processer at opfange alt.

Hvad hvis John Smith for eksempel køber et par sko på din hjemmeside i dag. Han går tilbage i morgen, men registrerer sig som J Smith, da han har glemt sine loginoplysninger. I næste uge tilmelder han sig igen, men med en anden e-mailadresse. Jeg har kun nævnt tre datafelter her, men det begynder allerede at blive kompliceret, så forestil dig, hvis du har 200 felter med kundedata, hvordan sikrer du, at det holdes unikt?

Det er vigtigt enten selv at konstruere fulde algoritmer, hvis du skal i gang med en manuel proces, eller anskaffe datarensningsværktøjer til at gøre det for dig, hvilket sparer al den tid og kræfter.

Sikkerhedskopier

Deduplikering kan gå galt! Før du fjerner dubletter, er det vigtigt, at alt er sikkerhedskopieret, og du kan løse eventuelle problemer hurtigt. Hvis vi går tilbage til vores tidligere eksempel, hvad nu hvis vi opdager, at John Smith og J Smith faktisk er forskellige mennesker og har brug for at få kontoen tilbage? Du har brug for en proces, der kan gøre netop det, hvilket er et lovkrav nu i EU (GDPR).

En datadeduplikeringsstrategi er vigtig, da virksomheder vokser deres digitale fodaftryk. Med så mange kommunikationskanaler har kun én dublet post kapacitet til at skabe bias og potentielt føre til forkerte beslutninger. Når det er sagt, skal det gøres ordentligt for at undgå konsekvenserne af at fjerne de forkerte registreringer eller forkert fodring af algoritmer og reducere forretningshastigheden. Sørg for, at datadeduplikering er fuldt udformet inden for din datastyringsstrategi.