Databaseunderindstilling – Sådan gør du i IRI Voracity

Når først en database overstiger en vis størrelse, bliver det dyrt - og risikabelt ud fra et sikkerhedsperspektiv - at levere kopier i fuld størrelse til udvikling, test og træning. De fleste teams har brug for mindre kopier af den større database og har ofte PII'et maskeret.

Databaseunderindstilling er processen med at skabe en mindre, referentielt korrekt kopi af en større database fra rigtige tabeludtræk. Undersæt kan bruges med eller i stedet for maskering af data eller syntetisering af testdata for at reducere omkostninger og risici forbundet med komplette sæt. Processen med at skabe meningsfulde undersæt manuelt er kompleks og besværlig, i betragtning af at du ville skulle udfylde mindre databaser med tilfældige prøver fra hver produktionstabel og sikre dig, at enhver relationel struktur mellem tabellerne stadig var korrekt i undergruppen.

En ende-til-ende-databaseunderindstillingsjobguide i IRI Workbench gør denne proces hurtigere og nemmere. Guiden er tilgængelig for licenserede brugere af IRI Voracity-dataadministrationsplatformen, IRI RowGen til generering af testdata og IRI FieldShield til datamaskering. Denne artikel introducerer guiden og viser, hvordan den opretter referentielt korrekte undersæt med muligheder for kolonnemaskering og feltbevarende kryptering.

Guiden til oprettelse af undersæt får brugeren til at vælge kilden til undersættet, størrelsen og sorteringen af det, navnene på undersætmålene og enhver kryptering eller maskering, som de undersætdata skal få. Guiden opretter derefter en række jobscripts, der enten opretter undersættabeller eller flade filer.

Jobmuligheder

Denne side definerer outputtypen. Hvis indlæseren efterlades tom, oprettes en flad fil med en tabulatorafgrænser. For databaseindstillinger kan enten ODBC eller den specifikke databaseindlæser vælges.

Undersætindstillinger

Denne side er hvor du angiver detaljerne for undergruppen. Vælg forbindelsesprofilen og tabellen, der vil "drive" den oprettede delmængde. Tænk på køretabellen som hovedtabellen, hvorfra du ønsker, at undergruppen skal stamme. Hvis du f.eks. vil undersætte en salgstabel og alle tabeller, der er forbundet til den, skal du vælge tabellen med salgsinfo her. Vælg også størrelsen på undersættet. For at få en delmængde af de 100 højeste solgte mængder, vil du f.eks. sortere i feltet solgt mængde (som i dette eksempel) og indtaste 100 i antallet af rækker. Et filter kan også tilføjes på drivertabellen.

Sortering

Denne side er, hvor du angiver sorteringsrækkefølgen for undersættet. Hvis du vil have rækkerne valgt tilfældigt, skal du dog lade listen med nøglefelter være tom.

Sorteringssiden har 3 bemærkelsesværdige sektioner:

Listen med inputfelter
Listen med nøglefelter
Nøgleindstillinger

Trin:

Hvis du vil have et undersæt af sorterede data, skal du vælge kolonnen, du vil sortere på, og klikke på "Tilføj nøgle."
Der er nogle få muligheder tilgængelige i boksen Nøgleindstillinger:
- Marker afkrydsningsfeltet Stabil for at duplikere poster for at indlæse i den rækkefølge, de er i produktionstabellen.
- Hvis du ikke vil have dubletter eller kun dubletter i dit undersæt, skal du markere afkrydsningsfeltet Dubletter og den relevante alternativknap.

Navngivning af mål

Denne side vises, hvis outputtypen er en database. Den har to funktioner. Den første giver dig mulighed for at se relationerne til din førertabel. Den anden er at navngive outputmålene for delmængden.

Siden med navngivning af mål har 5 bemærkelsesværdige sektioner:

Målprofilen og skemaet
Outputtilstanden oprettes altid, da dette job vil afkorte alle eksisterende tabeller med samme navn
SQL-indstillinger for jobbet
Navngivningsmulighederne
Referencelisten

Trin:

Vælg forbindelsesprofilen.
Vælg skemaet.
Angiv SQL-indstillingerne.
Vælg navngivningsindstillingen for at navngive delsættets mål. Hvis en anden profil eller et andet skema bruges, er dette trin valgfrit:
- Prefiks alle tilføjer et præfiks til hvert tabelnavn og indstiller det som tabellens mål.
- Postfix alle tilføjer et postfix til hvert tabelnavn og indstiller det som tabellens mål.
- Navn individuelt tillader, at hvert delsæt-mål navngives uafhængigt af de andre mål.
Gennemgå Refereret af og Referencer lister for at bekræfte, at tabellens relationer er fundet korrekt:
- I Importeret af liste, vises alle de tabeller, som din valgte tabel er importeret af.
- I Importer liste, vises alle de tabeller, som din valgte tabel har en relation til.

Regler

På denne side kan regler føjes til ethvert af målene. I dette eksempel er en regelmatcher blevet tilføjet til alle felter, der ender på ordet "NAVN". Reglen vil blive anvendt på den matchende måltabel. Denne regel vil maskere disse to felter med stjerner. Man skal passe på ikke at medtage regler om fremmednøglefelter.

Oversigt

Denne side opsummerer jobbet. Det viser tydeligt de kolonner, der matchede en regel, og måltabellerne, der matcher kildetabellerne, hvis de ikke eksisterer. Bemærk, at DDL vil blive oprettet for alle nye tabeller.

Når alle disse sider er udfyldt, kan du vælge Udfør. Guiden vil derefter oprette jobscripts og en eksekverbar batchfil til Windows eller Unix, som du kan starte fra Workbench eller kommandolinjen for at udtrække undersæt fra drivertabellen og dens relaterede tabeller.

Her er et flowdiagram, der viser de otte opgaver, der er oprettet til jobbet i Voracity:

Kontakt [email protected], hvis du har spørgsmål.