sql >> Database teknologi >  >> RDS >> Database

Dataprofilering:Opdagelse af datadetaljer

Dataprofilering eller dataopdagelse refererer til processen med at indhente information fra og beskrivende statistik om forskellige datakilder. Formålet med dataprofilering er at få en bedre forståelse af indholdet af data, såvel som dets struktur, relationer og aktuelle niveauer af nøjagtighed og integritet.

Dataprofilering kan afsløre fejl i, eller falske konklusioner omkring, metadata (data om data). At finde disse problemer tidligt hjælper med at forbedre kvaliteten af ​​kildedata, før de integreres eller opbevares i et datavarehus. Forståelse af attributterne for data i en databasetabel eller udtrukket fil og inspicering af dataværdier hjælper med at validere, at dataindhold faktisk matcher dets metadatadefinition. At se dataene og metadataene hjælper også med at identificere, hvilke elementer der er følsomme eller indeholder personligt identificerbare oplysninger (PII), så visse kolonner kan markeres for beskyttelsesforanstaltninger. Dataprofilering opdager således karakteristikaene ved kildedata, der er nødvendige for identifikation, brug og afstamning af data i integration, sikkerhed, rapportering og andre processer, der følger.

Selvom indsamlede data ofte kan virke godartede eller ubrugelige, især når de indsamles fra flere kilder, skal du huske på, at alle data kan være nyttige med den korrekte applikation eller algoritme. Dataprofilering er således også et første skridt i at bestemme denne anvendelighed (ved at forbedre forståelsen af ​​selve dataene).

Da mange virksomheder i sidste ende er afhængige af rådatakilder for at få indsigt i ting som produktbeholdninger, klientdemografi, købsvaner og salgsprognoser, kan en virksomheds evne til at drage konkurrencedygtige fordele af stadigt stigende datamængder være direkte proportional med dens evne til at udnytte disse data aktiver. At vinde/tabe kunder og lykkes/fejle som virksomhed kan meget vel være bestemt af den specifikke viden en organisations indsamlede data giver. At identificere de rigtige data, fastslå deres anvendelighed på det rigtige niveau og bestemme, hvordan man håndterer uregelmæssigheder — er afgørende i designet af data warehousing-operationer og business intelligence-applikationer.

Ifølge Doug Vucevic og Wayne Yaddow, forfattere af Testing the Data Warehouse Practicum, “...formålet med dataprofilering er både at validere metadata, når de er tilgængelige, og at opdage metadata, når de ikke er det. Resultatet af analysen bruges både strategisk – til at bestemme egnetheden af ​​kandidatkildesystemerne og give grundlag for en tidlig go/no-go beslutning, men taktisk til at identificere problemer til senere løsningsdesign og til at udjævne sponsorernes forventninger.

Datamyndigheder anbefaler at udføre dataprofilering tilfældigt og gentagne gange på begrænsede mængder data i stedet for at forsøge at tackle store, komplekse mængder på én gang. På den måde kan opdagelserne være afgørende faktorer for, hvad der næste gang skal profileres. Identifikation af dataregler, begrænsninger og forudsætninger sikrer integriteten af ​​de metadata, som fremtidig profilering udføres på. At vide, hvad der formodes at være i visse datafiler, og hvad der er faktisk der er måske ikke det samme. Så hver gang kvaliteten eller egenskaberne af en ny kilde er ukendt, foreslår eksperter dataprofilering først, før enhver integration i et eksisterende system.

Trin i dataprofileringsprocessen omfatter: import af alle objekter, oprettelse af konfigurationsparametre, udførelse af den faktiske profilering og analyse af resultaterne; ingen af ​​dem er så nemme, som de lyder! Baseret på resultaterne kan skema- og datakorrektioner implementeres, såvel som andre finjusteringer til efterfølgende forbedring af dataprofileringens ydeevne.

IRI-profileringsværktøjer

I midten af ​​2015 udgav IRI en række gratis database-, strukturerede og ustrukturerede (mørke) dataopdagelsesværktøjer i sin Eclipse GUI, IRI Workbench. De er opsummeret på http://www.iri.com/products/workbench/discover-data og linker til andre artikler i denne blog som går mere i detaljer.


  1. Introduktion til SQL-kommandoer

  2. Nye Microsoft Access-funktioner på vej!

  3. Oracle NULLIF() funktion

  4. Tips til opgradering af Percona XtraDB Cluster til 8.0