Dataklassificering i IRI Workbench

Brugere af PII-maskeringsværktøjer som FieldShield, DarkShield og CellShield EE i IRI Data Protector Suite eller Voracity platformen kan katalogisere og søge i deres data – og anvende datatransformations- og beskyttelsesfunktioner som regler – ved hjælp af indbyggede data klassificering infrastruktur i deres fælles front-end IDE, IRI Workbench, bygget på Eclipse™.

Multi-source data discovery (søge) faciliteter i IRI Workbench kan gøre brug af de dataklasser, du har defineret, eller de kan hjælpe dig med at tildele dataklasser eller dataklassegrupper til dine data baseret på dine søgeresultater, forretningsregler og/eller domæneontologier.

Du kan bruge dit dataklassebibliotek i regler for genanvendelige felter (f.eks. datamaskering). Og du kan også tildele disse regler, mens du automatisk klassificerer data.

Disse funktioner giver bekvemmelighed, konsistens og compliance-funktioner til dataarkitekter og styringsteams. Se denne artikel for et ende-til-ende eksempel at bruge dataklasser til at finde og maskere data konsekvent på tværs af flere tabeller i RDB-skemaer.

Denne artikel beskriver, hvordan du kan definere disse klasser. Der er relaterede artikler om dataklassevalidatorer, som kan bruges til at skelne og verificere data baseret på mønstersøgninger.

Adskillige andre artikler i IRI-bloggen dækker anvendelsen af dataklasser i forskellige (for det meste datamaskerende) sammenhænge. For et komplet indeks over disse artikler, se dette afsnit af IRI-softwarens selvlæringsside.

Opret dataklasser

Klassificeringen starter med at opsætte dataklasser i Workbench Preferences skærm, som giver dig mulighed for at bruge klasser globalt på tværs af flere projekter i dit arbejdsområde. Workbench har nogle klasser forudindlæst, inklusive klasserne FIRST_NAME, LAST_NAME og PIN_US, der bruges i dette eksempel.

Dataklasserne fungerer ved at matche (1) navnet på klassen med navnet på feltet, (2) et mønster til dataene i feltet, eller (3) sætte filindhold mod dataene i feltet. Det første punkt udføres automatisk for dig i klassificeringsprocessen, hvis denne mulighed er valgt. Du kan tilføje lige så mange mønstre og indstille filmatchere, som du har brug for for hver klasse for at returnere dine tilsigtede resultater.

Indtastning af et regulært udtryk som dataklassenavnet er en yderligere måde at matche kolonnenavnet på. For eksempel kan der være en kolonne med navnet LNAME eller LASTNAME. Så jeg kan bruge L(AST)?[_-]?NAME (understregning og bindestreg i parentes) for at fange et par variationer af EFTERNAVN.

Du kan også gøre dine dataklasser og grupper inaktive. Hvis du har mange klasser, men ønsker at bortfiltrere de elementer, der ikke bruges i dit specifikke projekt, kan du gøre dem inaktive. Dette giver dig mulighed for at beholde en kopi af dem, men ikke rode på rullelisten, der bruger disse klasser.

Dataklassegrupper

Du kan også have dataklassegrupper. For eksempel indeholder den inkluderede gruppe "NAMES" dataklasserne FIRST_NAME, LAST_NAME og FULL_NAME. Hvis du vil anvende en regel på flere klasser, kan du bruge en gruppe i stedet for at vælge dataklasser individuelt.

I dette eksempel fjernede jeg understregningen fra dataklassen FIRST_NAME for at demonstrere muligheden for navnematchning af klassificering.

Guiden Dataklassificeringskilde

Når matcherne er blevet tilføjet til de nødvendige klasser, kan du køre guiden Dataklassificeringskilde. Guiden accepterer følgende dataformater:CSV, Delimited, LDIF, ODBC eller XML. Denne guide giver mulighed for at vælge kilder til dit dataklassebibliotek til klassificering senere.

På opsætningssiden skal du begynde med at vælge placeringen af din nye "iriLibrary.dataclass ” fil, som er outputtet af denne guide. Filnavnet er skrivebeskyttet, fordi der kun kan være én af disse filtyper i hvert projekt. Du kan også markere afkrydsningsfeltet, hvis alle dine kilder er tabeller i en forbindelsesprofil.

Hvis du markerer denne boks, åbnes en inputside som den nedenfor, hvor du kan vælge de tabeller, der skal inkluderes:

Hvis afkrydsningsfeltet ikke er markeret, kan du tilføje filer eller ODBC-kilder på samme inputskærm. På denne type inputside skal du også tilføje metadata for hver kilde. I dette eksempel har jeg inkluderet en CSV-fil og to Oracle-tabeller.

Hvis du har brug for at søge og klassificere data på tværs af et eller flere komplette databaseskemaer på én gang, skal du bruge guiderne Schema Pattern Search og Schema Pattern Search to Data Class Association.

Ved at klikke på Udfør oprettes et dataklassebibliotek med de valgte kilder inkluderet. Dataklasseformulareditoren, der åbnes, giver dig mulighed for at klassificere dataene i disse kilder.

Klassificering af data i dine valgte kilder

Du starter klassificeringsprocessen ved at klikke på en af datakilderne for at få vist detaljerne om den pågældende kilde. Den øverste del af skærmen har en sektion, der kan udvides, der viser filen eller tabeldetaljerne.

Klassifikationsafsnittet starter med et afkrydsningsfelt for at inkludere matchning via feltnavnet til dataklassenavn. Jeg har f.eks. en dataklasse kaldet FIRSTNAME og et felt kaldet FIRSTNAME (matchingen skelner mellem store og små bogstaver).

I dette tilfælde vil klassificeringsprocessen vælge den dataklasse for det felt uden at læse dataindholdet.

Det næste afsnit viser en tabel, der indeholder feltnavne med afkrydsningsfelter, en kolonne for dataklassen og en kolonne for de matchende resultater. Den nederste tabel er en forhåndsvisning af dataene i kilden. De nødvendige dataklasser skulle være blevet oprettet, før du bruger denne formulareditor, men du kan tilføje eller redigere dem her.

Du kan manuelt vælge dataklassen ved at klikke på rullemenuen i dataklassekolonnen i det felt, du vil klassificere. Du kan også klikke på Automatisk klassificering og vælge de felter, du vil klassificere. Ved at klikke på OK starter den automatiske klassificeringsproces, som kan tage lang tid afhængigt af mængden af data, du har i din kilde.

Processen kan køre i baggrunden, hvis du vælger denne mulighed i standarddialogen Eclipse, der vises. Derudover kan du se processtatus i statusvisningen.

Efter færdiggørelsen vil dataklassen og dataklassekortet blive oprettet i biblioteket for de valgte felter. I dette eksempel fandt klassificeringsprocessen et 87 % match på SSN-feltet, 11 % på LASTNAME og et navnematch på FIRSTNAME. Procentsatserne angiver mængden af matchede data i din kilde via matcherne for den dataklasse.

Hvis "navn" vises i den matchende kolonne, blev dataklassen matchet baseret på navnet. Hvis du manuelt valgte en dataklasse, vil "bruger" blive vist i den matchende kolonne.

Det endelige biblioteksindhold vises nedenfor. Ligesom du kan se detaljerne om kilderne, kan du også klikke på dataklasserne og kortene for at få vist deres detaljer.

Dataklassekortene bruger referencer til dataklasserne og felterne, hvilket er grunden til, at biblioteket gemmer kilderne og dataklasserne ud over selve kortet. Sletning af en kilde eller dataklasse vil også fjerne alle tilknyttede dataklassekort, der refererer til det slettede element.

Når du klikker på Fjern, vises en advarsel for at minde dig om dette. Processen kan gentages på de andre inkluderede kilder, og yderligere kilder kan tilføjes til enhver tid.

Klassificeringsresultaterne for dette bibliotek kan nu bruges til at anvende feltregler på disse datakilder. Processen er forklaret i min næste artikel om anvendelse af feltregler ved hjælp af klassifikation.