Tilslutning af Google BigQuery til IRI Voracity Software

BigQuery er et administreret, serverløst datavarehus i Google Cloud designet til at muliggøre skalerbar analyse over petabytes af data. Det er en relationsdatabase Platform as a Service (PaaS), som understøtter ANSI SQL-forespørgsler. Som sådan fungerer det med IRI-software.

At forbinde Google BigQuery RDB til IRI Workbench og back-end SortCL-behandlingsprogrammet er enkelt og giver mulighed for bevægelse og manipulation af dets strukturerede data gennem kompatible IRI-produkter. Det betyder IRI CoSort, FieldShield, NextForm og RowGen eller IRI Voracity-platformen, som inkluderer dem alle.

Forbindelse følger det samme paradigme som alle andre relationelle databaser, som IRI understøtter. Dette betyder download og installation af ODBC- og JDBC-drivere, konfiguration (brug og test med dine legitimationsoplysninger), registrering og validering.

Da Workbench er bygget på Eclipse, skal den have en JDBC-forbindelse for at se BigQuery-skemaet og parse tabellens metadata. Og for at overføre data mellem BigQuery og SortCL-datamanipulationsmotoren er der også brug for en ODBC-driver. Det endelige resultat kunne være dette:

Google er gået sammen med Magnitude Simba for at levere ODBC- og JDBC-drivere til at oprette forbindelse til BigQuery. I skrivende stund mangler dens JDBC-driver imidlertid nøglefunktioner, som Workbench har brug for. For at komme uden om dette, brug JDBC-driveren fra CData.

Denne artikel giver trinvise instruktioner til IRI-software for at få adgang til BigQuery.

Tjenestekonti i BigQuery

BigQuery autoriserer adgang til ressourcer baseret på verificeret identitet, som kræver et bruger-id i form af en tjenestekonto og en nøgle/adgangskode. For at oprette en bekræftet identitet skal du logge ind på BigQuery, gå til Service Accounts under IAM &Admin og oprette en konto:

Det første felt opretter navnet på servicekontoen, til mit opsætning kaldte jeg det iri-simba. Det andet felt vil automatisk blive udfyldt med en servicekonto-e-mailadresse med det navn, du har valgt. Det sidste felt kan springes over. Klik på Opret og fortsæt.

Nu hvor en tjenestekonto er oprettet, kan vi gå videre til den type tilladelser, denne konto kan have. Klik på Vælg en rolle og se efter BigQuery for at tilføje specifikke roller til databasen.

Hvis du holder markøren over hver rolle, får du en hurtig beskrivelse af, hvilken type adgang denne rolle vil give til tjenestekontoen; find en mere detaljeret forklaring her. Dette giver mulighed for større kontrol med at give specifikke brugere tilladelse som muligheden for at kunne se tabeller, oprette forespørgsler eller køre som administrator.

Jeg valgte rollen som BigQuery-bruger, hvilket vil tillade denne tjenestekonto at se og manipulere tabeller. "Giv brugeradgang til denne tjenestekonto" springes over. Klik på Udført tager dig tilbage til servicekontoens hovedside, hvor du kan se kontoen:

Gå videre til den anden del, lad os oprette nøglen, der vil blive knyttet til den nye servicekonto. I feltet Handling skal du klikke på Administrer nøgler for at oprette nøglen til tjenestekontoen — enten ved at tilføje din egen nøgle eller få den oprettet for dig.

Hvis du har Google til at oprette din nøgle, vil den præsentere dig for to nøgletyper, JSON eller P12. Vælg JSON-typen, fordi denne nøgle også vil blive brugt til JDBC-driveren, som bruger JSON-formatet.

Når JSON-nøglen er oprettet, vil den blive downloadet til computeren. Du kan placere den hvor som helst, men husk stien, fordi den vil blive brugt til opsætning af ODBC- og JDBC-driveren.

Nu hvor servicekontoen er oprettet og har en nøgle, der fungerer som adgangskoden, lad os gå videre til at downloade ODBC-forbindelsen og konfigurere den.

ODBC – Download og konfiguration

Jeg bruger et Windows-operativsystem og vælger 64-bit Windows-versionen for kompatibilitet med den eksekverbare CoSort V10.5 SortCL. Når du har fulgt instruktionerne og accepteret licensaftalen for Simba Installer, skal du åbne ODBC Data Source Administrator (64-bit) for at konfigurere forbindelsen.

Du skal blot tilføje og søge efter driveren med navnet "Simba ODBC Driver for Google BigQuery".

Med driveren valgt, skal opsætningssiden se sådan ud:

Her er konfigurationen virkelig enkel, startende med navnet på datakilden.
Jeg valgte navnet Google BigQuery, men du kan vælge et hvilket som helst navn til din brug.

For godkendelse behold standardindstillingen Servicekonto og flyt ned til e-mail. Her kan du kopiere og indsætte den servicekonto-e-mail, der blev oprettet tidligere i denne artikel.

Feltet nedenfor (Key File Path) bruger stien til JSON-nøglefilen som input. Klik på rullemenuen nederst, hvor der står Katalog (projekt). Hvis alt er konfigureret korrekt, skal det vise navnet på projektet og noden, der indeholder datasættene og tabellerne.

Du kan gøre det samme for indstillingen Datasæt, klikke på rullemenuen for at vælge et specifikt datasæt eller lade dette stå tomt for at se alle datasæt i dette projekt. Test endelig forbindelsen for at sikre, at alt fungerer korrekt.

Når ODBC er sat op, kan vi konfigurere JDBC-driveren.

JDBC – Download og konfiguration

Download JDBC-driveren fra CData her. Når installationen er færdig, vil der være en mappe kaldet GoogleBigQueryJDBCDriver med en setup.jar indeni.

Setup.jar installerer alle de filer, der er nødvendige for, at JDBC-forbindelsen kan fungere. Den indeholder også en speciel krukke til at hjælpe med at oprette forbindelses-URL'en til JDBC-driveren.

Efter setup.jar har fuldført installationen, skal vi have konfigurationerne i Workbench klar. Tilføj en ny forbindelse i Data Source Explorer (inde i Workbench) ved at klikke på Ny forbindelsesprofil .

En pop kommer frem (som billedet nedenfor) og giver flere muligheder for, hvilken type forbindelser der kan oprettes. Vælg den generiske JDBC, og giv den et navn som f.eks. BigQuery. Dette vil gøre det nemt at få øje på det i Data Source Explorer.

Den næste side vil lede dig til at konfigurere driveren og angive forbindelsesdetaljerne. Klik på Ny driverdefinition der ligner et kompas med et grønt plustegn.

Den følgende side giver dig mulighed for at give et specifikt navn til driveren, hvis det ønskes. Når du flytter til fanen JAR List, er det her de nødvendige krukker tilføjes, for at JDBC-driveren kan fungere.

Hvis standardplaceringen blev brugt, når filerne til JDBC-driveren blev installeret, skulle den være placeret i mappen Programfiler med navnet CData. Inde i lib-mappen er der en Jar-fil kaldet cdata.jdbc.googlebigquery.GoogleBigQueryDriver , føj den krukke til listen og fortsæt til fanen Egenskaber.

*Standardstien ses på billedet nedenfor, hvis der er problemer med at finde jar-filen*

På fanen Egenskaber skal vi oprette en forbindelses-URL, give databasen et navn og angive driverklassen. Fokuser først på at oprette forbindelses-URL'en, find jar-filen, der lige blev tilføjet, i File Explorer, og kør den.

Dette vil hjælpe med at oprette forbindelses-URL'en i det format, som CData foreslår. Som det ses på billedet nedenfor, er der egenskaber til venstre, der skal indstilles for at oprette forbindelses-URL'en.

CData har dokumentation for hvilke egenskaber der skal indstilles alt efter hvordan brugeren valgte at godkende. Da vi godkender med en servicekonto, er de egenskaber, der skal indstilles, anført nedenfor.

AuthScheme – Indstil til OAuthJWT
Projekt-ID – Placeret på startsiden for BigQuery
InitiateOAuth – Indstil til GETANDREFRESH
OAuthJWTCertType – Indstil til GOOGLEJSON
OAuthJWTCert – Sti til .json-filen leveret af Google

Når alle egenskaber er indstillet, test forbindelsen for at sikre, at alt fungerer. Hvis det lykkes, skal du kopiere forbindelsesstrengen nederst. Hvis du afslutter uden at kopiere forbindelses-URL'en, skal du indstille egenskaberne igen.

Tilbage i Workbench skal du indsætte URL'en ved siden af Connection URL-egenskaben og tilføje navnet på databasen for Database Name-egenskaben. For Driver Class-ejendommen er der en knap med tre prikker i det tomme felt.

Klik på det, og det vil give dig mulighed for at indtaste navnet på driverklassen eller få den til at scanne JAR-listen for driveren. Når alt er gjort, skulle det se sådan ud:

Klik på OK og du vil blive sendt tilbage til siden "Specificer en driver og forbindelsesdetaljer". Der er ingen grund til at tilføje et brugernavn eller adgangskode, fordi alle oplysninger er i forbindelses-URL'en. Test forbindelsen en sidste gang, og klik på Afslut.

Forbindelsesprofilen vil nu være synlig i Data Source Explorer, og skemaerne/tabellerne kan ses, når du højreklikker på profilen og vælger tilslut.

Den sidste opgave er at oprette et dataforbindelsesregister, der knytter DSN til den forbindelsesprofil, der lige blev oprettet. Gå til IRI Menu, vælg præferencer og find dataforbindelsesregistret, som billedet nedenfor antyder.

Til venstre er DSN og til højre er forbindelsesprofilerne. Find det DSN, der er oprettet i ODBC-sektionen ovenfor, og klik på Rediger…. Vælg DSN, version og forbindelsesprofil.

Da DSN har legitimationsoplysningerne gemt i forbindelses-URL'en, er der ingen grund til at godkende med en bruger/adgangskode. Klik på OK og Anvend og luk for at forlade menuen.

Du er nu færdig med databasetilslutningstrinnene for Google BigQuery. Hvis du har brug for hjælp, send en e-mail til [email protected].