sql >> Database teknologi >  >> NoSQL >> HBase

Operationel databaseadministration

Redaktørens note, august 2020:CDP Data Center kaldes nu CDP Private Cloud Base. Du kan lære mere om det her.

Introduktion

Dette blogindlæg er en del af en serie om Clouderas operationelle database (OpDB) i CDP. Hvert indlæg går i flere detaljer om nye funktioner og muligheder. Start fra begyndelsen af ​​serien med Operational Database i CDP.

Dette blogindlæg giver dig et overblik over de operationelle databaser (OpDB) administrationsværktøjer og funktioner i Cloudera Data Platform. Det er tilgængeligt i to formfaktorer i dag:som et fuldt sikkert, semi-administreret tilbud i CDP Public Cloud – Data Hub og som et fuldt tilpasseligt tilbud i CDP Data Center (svarende til, hvad der er tilgængeligt i CDH og HDP). For mere information om Data Hub, se Cloudera Data Hub.

Fig. 1:OpDB Data Hub-klynge.

Du kan bruge linkene i denne artikel for at få flere oplysninger og instruktioner til at bruge disse funktioner.

Oprettelse og kontrol af databaser

Apache HBase-navnerum er logiske grupper af tabeller, der ligner en database i et traditionelt relationsdatabasesystem. Navneområder kan oprettes eller administreres gennem Apache HBase Shell. For mere information om brug af Apache HBase shell, se Apache HBase shell oversigt.

Med Replication Manager &Ranger på billedet med CDP kan du kun oprette navneområdet og administrere det i HBase shell. Men tilladelser er via Ranger, og replikering er via Replication Manager.

Ligesom i en relationsdatabase indeholder navnerum samlinger af tabeller og tilladelser, replikeringsindstillinger og ressourceisolering. Du kan indstille disse konfigurationer på navnerumsniveau. I CDP kan du oprette et navneområde og administrere det ved hjælp af HBase-shell. Du kan bruge Apache Ranger til finmaskede autorisationspolitikker og revision. For mere information om, hvordan du opsætter sikkerhed i CDP, se Sikkerhed ved hjælp af Ranger.

Replication Manager hjælper dig med at oprette HBase-replikeringspolitikker. Du kan bruge Replication Manager til at konfigurere replikering mellem CDH/HDP eller Apache HBase til CDP Data Center.

Fig. 2:Oprettelse af brugergrænseflade for replikeringspolitik

Grafisk DDL- og DCL-funktionalitet

Der er flere værktøjer til dette, inklusive plugins til:

  • Cloudera Machine Learning (CML):CML hjælper dig med at forespørge data ved hjælp af HBase-klient og Phoenix og hjælper dig med interaktiv dataudforskning, visualisering, deling og samarbejde. OpDB kan bruges til at gemme Session/Job/Model forudsigelsesresultater til senere forespørgsler fra flere forskellige brugere.

Fig. 3:Cloudera Machine Learning-brugergrænseflade

  • Hue:Hue er en webbaseret interaktiv forespørgselseditor, der sætter dig i stand til at interagere med datavarehuse. Du kan bruge HBase Browser-applikationen i Hue til at oprette og gennemse HBase-tabeller.

Fig. 4:Hue-grænseflade understøtter søgning, indsæt, opdatering, sletning, DDL for HBase

Du kan bruge SQL-grænseflade ved hjælp af Impala eller Hive til forespørgselsbehandling i Hue.

Fig. 5:SQL-grænseflade ved hjælp af Impala

Her er en vejledning til at oprette eksempeltabeller i HBase ved hjælp af Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse:HBase-kodeformatering til Eclipse er nyttig, når du redigerer HBase-kode i Eclipse. For mere information, se Opbygning og udvikling af Apache HBase.

Værktøjer som Zeppelin og Hue sammen med deres plugins leveres ud af kassen. Men du kan også bruge tredjeparts SQL-værktøjer såsom Toad.

Værktøjer til opgradering af den operationelle databaseudgivelse

Du kan bruge Cloudera Manager til at automatisere processen med at opgradere den operationelle database i dit Cloudera Data Platform-Data Center (CDP-DC). Opgraderinger leveres gennem udgivelser eller vedligeholdelsespatches. Cloudera Manager installerer udgivelserne og/eller patcherne og administrerer konfigurationen såvel som genstartsprocessen.

Hvis du bruger CDP på ​​en offentlig sky som Amazon AWS, skal du oprette en ny datahub-klynge for at opgradere til de nye versioner af forskellige komponenter. For mere information om oprettelse af en ny operationel database Data hub cluster, se Kom godt i gang med operationel database på CDP.

Clouderas tilbud er et klyngebaseret tilbud; opgraderinger og patches spænder alle over flere noder (servere), og installation, konfiguration og genstart er alt sammen automatiseret, inklusive rullende genstart, hvor det er relevant.

Redningshåndteringsværktøjer på tværs af flere servere

I CDP Data Center installerer Cloudera Manager udgivelserne og administrerer konfigurationen. Cloudera Manager udfører også genstartsprocessen for hver af de berørte komponenter.

Nul nedetid programrettelse

I CDP Data Center giver Cloudera Manager dig mulighed for at anvende patches uden nedetid.

Forandringsstyring på tværs af flere servere

Du kan udføre ændringsstyring på databaseskemaer på tværs af flere forekomster. For eksempel kan du gøre dette på dit test/dev, iscenesættelse eller produktionsmiljø.

Du kan scripte de nødvendige ændringer ved hjælp af HBase-shell og derefter udbrede det til de andre forekomster.

For mere information om brug af HBase shell, se Apache HBase shell.

Opdeling af arbejdsbelastning

Du kan udføre arbejdsbelastnings-/applikationspartitionering i OpDB ved hjælp af flere værktøjer afhængigt af arten af ​​sættet af arbejdsbelastninger og deres databehov.

Hvis applikationerne alle har adgang til separate tabeller, kan regionsservergrupper bruges til at dedikere et sæt noder til et defineret sæt tabeller eller navneområder, der skaber en hardwarepartitioneringstilgang. For mere information om regionsservergrupper, se Brug af RegionServer Grouping.

For applikationer, der bruger det samme sæt tabeller, kan du bruge RPC-regulering, brugerkvoter og pladskvoter til at håndtere det støjende naboproblem. Se HBase-tilbudsstyring for flere tekniske detaljer.

Du kan også kombinere disse to sæt muligheder for at få et mere sofistikeret partitioneringsskema. Brug Cloudera Manager til at sikre, at specifikke tjenester er opdelt korrekt mellem forskellige noder i klyngen; for eksempel kan du bestemme, hvilke noder der skal bruges til SOLR-søgning osv.  

Hardwarepartitionering

Cloudera Manager og YARN udnytter begge Linux cgroups og aktiv hukommelsesstyring til både statisk og dynamisk opdeling af hardwareressourcer.

For det første kan alle processer, der kører på alle værter, opdeles hårdt med cgroups, indstillet af Cloudera Manager. For det andet lader en wizard brugere definere layoutet af statiske partitioner for tjenester ved at indstille procenter, automatisk oversætte cgroup-baseret CPU og I/O isolation og indstille hukommelsesgrænser ved selv at konfigurere tjenester.

Endelig giver den native ressourcemanager en containermodel for arbejdsbelastninger, der placerer hver diskret arbejdsenhed i en container, ved hjælp af cgroups og aktiv hukommelsesstyring (set, monitor og kill) til applikationsisolering.

Softwarehypervisorer

Følgende softwarehypervisorer understøttes

  • VMware understøttes til on-prem-miljøer
  • Microsofts Azures virtuelle miljøer (Azure stack)
  • Amazon Web Services, Google Compute Platforms virtualisering og Microsoft Azure understøttes i skyen.

Container- og orkestreringsstøtte

Cloudera leverer et Docker-billede, der har Apache HBase, Apache ZooKeeper og Cloudera Manager installeret på det. Du kan konfigurere YARN til at administrere dine Docker-containere og indsende Apache HBase-job til YARN på den samme container eller indsende job til YARN fra en anden container.

For mere information, se Administrer Docker-containere på YARN.

Tilbageføring af patches eller udgivelsesopgraderinger

Cloudera Manager giver automatisering til nogle af rollback-processerne. Opgraderinger kan nogle gange involvere ændringer i dataformater. Værktøjer til at fortryde formatændringer understøttes ikke, og du skal udløse en gendannelse af data fra sikkerhedskopier, så rollback kan bruge de gamle data.

Migration på tværs af OS-platforme

Clouderas standardværktøjer til sikkerhedskopiering/gendannelse/datagendannelse er tilgængelige for at understøtte migreringen af ​​OpDB mellem forskellige operativsystemer.

HBase-sikkerhedskopiering og katastrofegendannelsesstrategier sikrer, at dine data sikkerhedskopieres for at beskytte dig mod tab af data. HBase snapshot giver dig mulighed for at tage et øjebliksbillede af en tabel uden stor indflydelse på RegionServers. Også fordi snapshot-, klonings- og gendannelsesoperationer ikke involverer datakopiering.

For flere oplysninger om HBase-sikkerhedskopiering og katastrofe, se HBase-sikkerhedskopiering og katastrofegendannelsesstrategier.

Databaseadministratorværktøjer (DBA)

Der er mange værktøjer inkluderet til at understøtte administration af databasen, herunder:

  • Cloudera Manager
  • HBase shell
  • Hue
  • HBCK2 
  • hbtop
  • Ranger 
  • Atlas
  • FreeIPA 
  • navencrypt 
  • HDFS-værktøjer
  • GARN

Disse værktøjer giver metrikker og overvågning, genstart af klynge, tilføjelse af indlæsning, livscyklusstyring, opgraderinger, sikkerhed, Kerberos-opsætning og andre funktioner.

Fig. 6:Cloudera Manager HBase-grænseflade

Fig. 7:Metrik og overvågning i Cloudera Manager:

Fig. 8:Cluster genstart i Cloudera Manager

Ud over disse værktøjer kan du også bruge følgende tredjeparts- og open source-administrationsværktøjer:

  • hrider
  • HADMIN

Åbn dokumenterede grænseflader til tredjepartsadministrationsværktøjer

Vi leverer også åbne API'er for at gøre det muligt at bruge andre værktøjer til at administrere OpDB. For eksempel kan JMX-grænsefladen bruges til at integrere med tredjeparts overvågningsværktøjer som Grafana.

Konklusion

I dette blogindlæg har vi set på, hvordan du kan gøre brug af de forskellige administrative værktøjer og muligheder, som OpDB'en tilbyder i CDP. I den næste artikel vil vi dække, hvordan du kan gøre brug af administrationsmulighederne i OpDB, tjek det ud her.


  1. GenericJackson2JsonRedisSerializer Ignorer klasse og attribut

  2. Hvordan kan jeg deaktivere MongoDB-logmeddelelser i konsollen?

  3. Sådan bruges Redis med Python

  4. Sådan stopper du mongo DB i en kommando