Introduktion til dataprofilering
Dataprofilering er processen med systematisk at dokumentere design og indhold af data i en fil, tabel eller skema. Dataprofilering er et vigtigt første skridt, der tages, når et datavarehus er i planlægningsfasen. Det er vigtigt for datavarehusarkitekter og designere at forstå kvaliteten og den overordnede karakter af de underliggende operationelle systemdata, før de påbegynder et større datavarehusprojekt. Nogle specifikke aspekter af kildedata, som profilering kan afsløre, omfatter:
- Den overordnede størrelse (i bytes) af hver kildetabel eller fil inklusive specifikationer for hvert felt/kolonnes datatype.
- Antal, gennemsnit, intervaller og eksistensen af nuller for hver kolonne.
- Relationer mellem datakolonner i tabeller (som funktionelle afhængigheder).
- Relationer mellem tabeller (såsom udenlandske nøglerelationer).
Resultaterne af dataprofileringsfasen kan yderligere bruges til at udvikle regler til kontrol af datakvalitet og regler for at rette dataproblemer i de første faser af en ETL-pipeline.
Oracle Warehouse Builder leverer en kraftfuld dataprofileringsfacilitet, der kan bruges til at lære, meget detaljeret, omfanget og karakteristika af data i et skema. Den officielle OWB-dokumentation om dataprofilering kan findes på dette link. Oracle Warehouse Builder er installeret sammen med standard- og Enterprise-versioner af Oracle 11g Database. Her er nogle instruktioner om installation af Oracle 11g Release 2 på Windows.
Hvis du har en central Oracle 11g-server, kan du bruge Oracle Warehouse Builder Client til at få adgang til det centrale lager.
I denne demonstration præsenteres de vigtigste trin, der kræves for at profilere et OLTP-systemskema. Målskemaet vil være Oracle "Order Entry"-skemaet (OE), der kan installeres og aktiveres på Oracle 11g-databaser. Bemærk, at Oracle Warehouse-brugeren skal have adgang (legitimationsoplysninger) til OE-skemaet for at konfigurere det relevante modul i OWB.
Det første store trin i profilering er at oprette et modul, der peger på kildedatabaseskemaet. OWB understøtter et stort antal databasekilder såvel som flade (tekst)filer.
Opsætning af et nyt modul til ordreindtastningsskemaet
I dette sæt trin vil ordreindtastningsskemaet (OE) blive oprettet som et nyt modul i Oracle Warehouse Builder.
- Begynd med at logge ind på Oracle Warehouse Builder. Åbn vinduet Project Navigator, og åbn derefter MY_PROJECT
Åbn Databaserne mappen og derefter Oracle mappe.
Højreklik på Oracle mappe og vælg Nyt Oracle-modul som vist nedenfor:
- Når velkomstskærmen vises, skal du klikke på Næste> knap
- Angiv et nyt navn og en beskrivelse til databasen. Bemærk, at du ikke må bruge mellemrum i navnet på databasen.
Klik på Næste> knappen for at fortsætte.
- Det næste hovedtrin vil være at angive placeringen af databasen. Det er mere end sandsynligt, at dette er første gang, man gennemgår disse trin, og placeringen af Oracle OE-skemaet er derfor ikke fastsat. I dette tilfælde skal du klikke på Rediger... knappen vist ved siden af Placering prompt
- Udfyld navn, beskrivelse og forbindelsesoplysninger (værtsnavn, brugernavn, adgangskode, portnummer, Oracle-tjenestenavn osv.) Klik på OK knappen, når du er færdig.
- Bekræft forbindelsesoplysningerne, og klik på indstillingen Importér efter afslutning .
Klik derefter på Næste> knappen for at fortsætte:
- Den endelige oversigtsskærm vises, hvilket indikerer, at modulet blev oprettet.
Klik på Udfør knappen for at lukke denne skærm.
Import af metadata til ordreindtastningsskemaet
- Ved at markere Import efter afslutning mulighed i trin 6, Import Metadata Wizard starter automatisk, når databasemodulet er oprettet. Hvis du sprunget over denne mulighed, skal du højreklikke på det nye Ordreindtastningsmodul og vælge Importer metadata fra menuen.
Når guiden Importer metadata starter, skal du klikke på Næste> knappen for at fortsætte.
- Filteroplysningerne skærmen vises næste gang. I dette tilfælde ønsker vi at importere metadata for alt skemaindholdet, så klik på Alle og klik derefter på Næste> knappen for at fortsætte.
- Det næste skærmbillede, der vises, giver mulighed for at vælge nogle eller alle de objekter, der er fundet i skemaet. Til at begynde med Objektvalg skærmen vises som følger:
- Klik på ikonet med den dobbelte højre pil for at flytte alle objekterne fra Tilgængelig side til Valgte side som vist nedenfor. Klik derefter på Næste> knappen for at fortsætte.
- Oversigt og import skærmen vises næste gang. Gennemgå skærmen for at sikre dig, at alle objekterne er blevet valgt, og klik på Udfør knappen for at fuldføre importen.
- Et Importer resultater oversigtsskærmen vises. Klik på OK knappen for at lukke den.
- I Oracle Warehouse Builder Projects Navigator vil ORDER_ENTRY-databasen blive udfyldt med alle dens objekter inklusive tabellerne som vist nedenfor:
På dette tidspunkt er et nyt databasemodul til Oracle Order Entry-databaseskemaet blevet oprettet, og alle skemaets metadata er blevet importeret til Oracle Warehouse Builder. I det næste sæt trin, en ny dataprofil vil blive oprettet.
Oprettelse af en dataprofil i Oracle Warehouse Builder
Det næste store trin er at oprette en dataprofil .
- I Oracle Warehouse Builder Projects Navigator skal du højreklikke på Dataprofiler gruppe, og vælg Ny dataprofil
- Når velkomstskærmen vises, skal du klikke på Næste> knap
- Angiv et navn og en beskrivelse af den nye dataprofil. I dette eksempel navngav vi den nye profil:Order_Entry_Schema_Profile (bemærk at mellemrum ikke er tilladt i profilnavnet). Klik på Næste> knappen for at fortsætte.
- Det næste skærmbillede giver en liste over skemaobjekter. Åbn tabellerne mappe og tilføj alle tabellerne (med undtagelse af KØBSORDER tabel) angivet under Ordreindtastningsdatabasen til Valgte side af skærmen.
Tilføj ikke nogen af visningerne.
Klik på Næste> knappen for at fortsætte.
- På dette tidspunkt vises Oversigt skærmen vises, og dataprofilen er blevet konfigureret. Klik på Udfør knap.
- Når den nye profil er konfigureret, Data Profil Editor skærmen vises.
Det næste trin vil være at køre profileringsværktøjet på skemaet.
Arbejde med profileditoren i Oracle Warehouse Builder
Det sidste hovedtrin er at arbejde i Profileditoren for at starte et dataprofileringsjob og derefter se resultaterne. Hvis du har fulgt de foregående trin for at oprette en ny dataprofil, burde OWB have startet Data Profil Editor . Alle instruktionerne fra dette tidspunkt antager, at vi arbejder i dataprofileditoren.
- Nedenfor er en visning af dataprofileditoren. Bemærk, at ORDER_ENTRY-databasemodulet er åbnet i Profilobjekter vinduet og alle tabellerne skal være opført her.
- Du kan foretage ændringer i profileringstrinnene i Property Inspectors sektioner såsom Indlæs konfiguration og Aggregationskonfiguration . Beskrivelser af disse indstillinger kan findes på dette link.
For dette eksempel skal du sørge for, at følgende profileringsstandarder er valgt:- Aktiver Common Format Discovery
- Aktiver Typeopdagelse
- Aktiver mønsteropdagelse
- Aktiver domæneopdagelse
- Aktiver unik nøgleopdagelse
- Aktiver Functional Dependency Discovery
- Aktiver opdagelse af redundante kolonner
- Aktiver dataregelprofilering
- For at starte Data Profiling-jobbet skal du trække Profil ned menuen og vælg Profil
- Når profiljobbet er påbegyndt, vises en dialogboks, der viser fremskridt med at validere profilen. Dette kan tage flere minutter afhængigt af serverens hastighed og antallet af databaseobjekter i profilen.
- Når valideringstrinnet er fuldført, kører det faktiske profiljob. Bemærk, at dette job kører asynkront i baggrunden. Klik på OK knappen for at lukke Profil startet dialog boks.
- Når profiljobbet er fuldført, Hent profilresultater skærmen vises. Klik på Ja for at hente profilresultaterne ind i Profileditoren.
- Profilresultaterne vises i Profileditoren. Klik på et tabelnavn for at se metadataene i Profilresultatlærredet . Klik på et kolonnenavn for at se detaljerne for en kolonne i Data Drill Panel
I figuren nedenfor (klik for et større billede), er KUNDER tabellen er blevet valgt til visning i profilresultatlærredet og NLS_TERRITORY kolonnen er valgt til at se i Data Drill Panel.
Flere oplysninger om Oracle OWB-dataprofilering
Ud over dokumentationen leverer Oracle også en Oracle By Example (OBE) serie af selvstudier til OWB, herunder:Oracle Warehouse Builder:Undersøgelse af kildedata ved hjælp af dataprofilering.