Dette blogindlæg er en del af en serie om Clouderas operationelle database (OpDB) i CDP. Hvert indlæg går i flere detaljer om nye funktioner og muligheder. Start fra begyndelsen af serien med Operational Database i CDP.
Clouderas OpDB giver et rigt sæt af muligheder til at gemme og få adgang til data. I dette blogindlæg vil vi se på tilgængelighedsfunktionerne i OpDB, og hvordan du kan gøre brug af disse muligheder for at få adgang til dine data.
Distribution og sønderdeling
Clouderas Operational Database (OpDB) er et udskaleret Database Management System (DBMS), der er designet til at skalere lineært til Petabytes af data. Som alle DBMS'er implementeres scale-out gennem sharding. To forskellige sharding-politikker understøttes:
- Auto-sharding
- Foruddefineret sønderdeling
Uanset tilgang er der API'er til at muliggøre sharding baseret på hash, række af værdier og kombinationen af begge.
Auto-sharding
Når auto-sharding er aktiveret, fordeles tabellerne dynamisk på tværs af klyngen, og når en shard-størrelse overskrider den konfigurerbare grænse, opdeles den automatisk og flyttes mellem servere i en klynge.
Et bordsegment er opdelt i to ved den midterste nøgle, hvilket skaber to omtrent lige store halvdele, og disse to halvdele kan betjenes af forskellige servere.
Automatisk sharding anvendes uanset det netværk, der bruges med OpDB (WAN eller lokalt). Klynger kan konfigureres til at spænde over et WAN, i hvilket tilfælde sharding og databevægelse ville forekomme på tværs af WAN'et uden datatab.
Systemet kan konfigureres til at være opmærksom på, hvilke noder der er i hvilke datacentre, hvilket giver ekstra modstandsdygtighed for shards, da kopier af shards kan distribueres på tværs af flere datacentre.
Foruddefineret sharding
Shards kan begrænses til specifikke undersæt af noder i en klynge baseret på politik, typisk på en lejerspecifik måde. Det muliggør implementering af geografisk baserede politikker. Derefter kan tabeller replikeres mellem klynger og indstilles af politikker for at sikre, at replikering af tabeller og de tilhørende shards er begrænset til ønskede geografiske områder.
Clouderas OpDB giver indbygget support til datasuverænitet. Hvis en klynge spænder over flere lande, kan regionsservergrupper bruges til at forankre data i specifikke lande sammen med HDFS Rack-isolationskonfiguration.
Forespørgsler
Cloudera leverer tre forespørgselsmotorer, der er optimeret til forskellige typer brugssager, både operationelle og analytiske, og NoSQL-grænseflader for at muliggøre optimeret ydeevne, der spænder over en bred vifte af både drifts- og datavarehus-arbejdsbelastning. Dette muliggør udførelse af forespørgsler og sammenføjninger af data på tværs af flere shards.
Clouderas OpDB giver en indbygget OLTP SQL-motor, der understøtter forespørgsler på flere data- og objektmodeller, herunder forespørgsler og sammenføjning på tværs af dem. To af vores OLAP-forespørgselsmotorer kan bruges til at kortlægge eksterne tabeller, der findes i vores OpDB (eller på andre steder) og kan forespørge eller slutte sig til dem for mere komplekse analytiske forespørgsler, der er typiske for data warehousing
Dataintegrationsværktøjer
Cloudera leverer flere værktøjer til at muliggøre integration med data warehousing og fødereret forespørgselsbehandling.
For eksempel:
- Masseeksport til et datavarehus leveres af Flink, Spark, Hive og MapReduce
- Streameksport til et datavarehus leveres af Nifi
- In-situ dataforespørgsel i vores OpDB leveres af Phoenix, Impala og Hive
- Federeret forespørgselsbehandling på tværs af vores OpDB, datavarehusløsning og tredjeparts datavarehusløsninger leveres af Hive
Understøttelse af ekstern data
Clouderas OpDB inkluderer mange Hadoop-værktøjer og integreres med det meste af Hadoop-økosystemet.
Vores OpDB leverer NoSQL- og SQL-grænseflader. Der er ingen begrænsninger for denne grænseflade, og den er meget godt understøttet i Hadoop-fællesskabet.
Mobil OpDB
MiNiFi kan bruges på bærbare enheder i kanten og giver dataforbindelse med OpDB.
Forespørgselseditoren HUE kan køre på en mobil eller bærbar enhed.
Standardbaseret tilslutning
Cloudera leverer både JDBC- og ODBC-drivere leveret gennem vores SQL-motorer ud over direkte API-adgang til vores datalagre og værktøjer.
Næste
I dette blogindlæg kiggede vi på nogle af OpDB-tilgængelighedsfunktionerne såsom dataforespørgsel, dataintegration og tilslutningsmuligheder. I den næste artikel vil vi dække, hvordan du kan gøre brug af administrationsmulighederne i OpDB, find det her.
For mere information, gå til:Kom godt i gang med operationel database.