Aflæs meget store databaser

En af de største bekymringer DBA'er, der har brug for at udlæse big data fra meget store database (VLDB) tabeller, er hastigheden. Hurtigere aflæsning gør data tilgængelige i forskellige former til forskellige formål og platforme. Jo hurtigere data indhentes, jo hurtigere kan de behandles og leveres. Det ultimative resultat er hurtigere time-to-løsning og dermed produktiviteten og konkurrenceevnen hos virksomheder, der tjener penge på information.

De fleste af de tilgængelige værktøjer og metoder, der i øjeblikket bruges til at udtrække data fra store faktatabeller, er simpelthen for langsomme. Dem, der foregiver at være hurtigere, er komplicerede, proprietære eller kræver køb af en dyr ETL-pakke. Et skift til et ELT- eller Hadoop-paradigme medfører større hardwareudgifter (eller DB-apparat), beskatter den underliggende DB, der nu transformeres, og pålægger stejle indlæringskurver og vedligeholdelsesbyrder.

Er der ikke andre muligheder for aflæsning og downstream-processer, der er hurtigere, enklere og mere overkommelige?

Hvorfor fjerne VLDB-tabeller?

Der er mange grunde til, at du ville masseudlæse data fra disse tabeller i første omgang:

Databasemigration :Jo hurtigere du kan få data ud af de gamle databaser, jo hurtigere kan du kortlægge og flytte dataene til de nye databaser. Massedatabevægelse ville være fordelagtig, hvis datamængderne er massive, der er en fordel ved offline transformation, beskyttelse og/eller analyse (hvilket er muligt på én gang i IRI CoSort), og når forudsorterede massebelastninger er den eneste måde at opfylde SLA deadlines.

Database-omlægning :Aflast, sorter, genindlæs for at holde databasen i drift effektivt og optimere almindelige forespørgsler ved at holde tabellerne i rækkefølge. Aflæsning udføres i off-line eller eksterne omorganiseringer. Se denne sammenligning om offline- og online-reorganiseringsmetoder.

Dataintegration :Storskala DW extract-transform-load (ETL) operationer starter med udtrækning af tabeller i dataindstillingsområdet. Data dumpet fra tabeller og blandet med mainframe-datasæt, weblogs og andre flade filer kan mest effektivt integreres og behandles i filsystemet. Eksterne transformationer via er ikke kun mere effektive, fordi flere handlinger kan iscenesættes i et enkelt I/O-passage, men fordi den beregningsmæssige overhead for alt dette arbejde fjernes fra databasen (se ETL vs. ELT).

Datareplikering/arkiv :Ved at aflaste faktatabeller kan operationelle data fra golden source duplikeres og gemmes i et bærbart format. Data i flade filer kan forespørges, manipuleres og omformateres med værktøjer som IRI NextForm eller CoSort og bruges til at udfylde andre databaser og applikationer. På samme måde kan et tilgængeligt lager af disse data også gemmes offline til gendannelse og genfinding af sikkerhedskopier eller distribution til parter, der kræver adgang til dataene i et andet miljø.

Business Intelligence :Det kan være hurtigere og nemmere at importere driftsdata til Excel og andre BI-værktøjer i flade filformater som CSV og XML i stedet for at forsøge at bygge bro mellem tabellen og et regneark eller BI-kube. Overførsel af tabeller til flade filer er derfor et indledende og effektivt trin i datafranchising – forberedelse af data til BI-operationer.

Et kig på aflæsningsmetoder

VLDB-ekstraktionsmetoder varierer i ydeevne og funktionalitet. Et godt værktøj til at udlæse big data fra Oracle og andre større DB'er skal være effektivt, let at bruge og understøtte visse omformateringsfunktioner, der ikke besværliggør processen.

SQL SPOOL-kommandoen kan dumpe data til en flad fil, men den er typisk langsom i volumen. Indbyggede hjælpeprogrammer som Oracles eksport eller datapumpe er hurtigere, men producerer proprietære udtræk, der kun kan genimporteres til den samme database og ikke kan analyseres som en flad fil.

Hvis du hurtigt har brug for at udlæse store tabeller til bærbare flade filer, skal du overveje IRI FACT (Fast Extract) til Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero osv. FACT bruger parallelisme og native databaseforbindelsesprotokoller (som Oracle OCI ) for at optimere ekstraktionsydelsen. Den gratis FACT GUI (wizard), der er en del af IRI Workbench, bygget på Eclipse™, præsenterer tilgængelige tabeller og kolonner til at udtrække og bruger SQL SELECT-syntaks.

En anden fordel ved at bruge FACT er dens metadata-integration med SortCL-programmet i IRI Voracity til at transformere, beskytte, målrette og endda rapportere om fladfil-udtræk. FACT opretter også databasens masseindlæsningsværktøjskontrolfil i forventning om genudfyldninger af samme tabel ved hjælp af præ-CoSorted flade filer i storstilet ETL eller reorg operationer.