sql >> Database teknologi >  >> NoSQL >> HBase

Cloudera Replication Plugin muliggør x-platform replikering til Apache HBase

Cloudera Data Platform (CDP) er det seneste Big Data-tilbud fra Cloudera. Det inkluderer Apache HBase og Phoenix som en del af platformen. Disse to komponenter findes i 3 formfaktorer:

  1. For on-prem-implementeringer er de tilgængelige på samme måde som CDH og HDP (inden for CDP Private Cloud-tilbuddet)
  2. For kunder, der ønsker at administrere databasen på egen hånd i AWS &Azure, er den tilgængelig som en del af CDP Public Cloud DataHub-tilbuddet (med Operational Database-skabelonen eller i Custom DataHub-implementeringer)
  3. Det vil være tilgængeligt som en del af Cloudera Operational Database (COD) i den kommende snart, som er et fuldt administreret tilbud, der eliminerer administrationsomkostningerne ved drift af en HBase-implementering

Clouderas Apache HBase-kunder kører typisk missionskritiske applikationer, der ikke har råd til nogen nedetid. De har brug for en måde at migrere til en ny implementering på, enten uden produktionsafbrydelse eller som minimum et lille udfald. Med disse opgraderingsovervejelser i tankerne, især med den kommende afslutning af understøttelse af CDH5 og HDP 2, har vi udviklet Cloudera OpDB Replication Plugin .

Mange virksomheder implementerer også CDH 6-, HDP 3- og EMR-baserede HBase-klynger, men søger at reducere eller eliminere de operationelle omkostninger ved vedligeholdelse af HBase-klynger. For dem er Cloudera OpDB Replication Plugin kan sætte dem i stand til at migrere til DataHub eller COD uden at pådrage sig nedetid eller produktionsafbrydelse.

Replikeringsplugin'et understøtter replikering fra følgende kilde-HBase-klynger:

  • CDH 5.14
  • CDH 6.3
  • HDP 2.6.5
  • HDP 3.1.5
  • EMR 5.28

HBase-replikering

HBase har leveret en moden, funktionsrig replikeringskapacitet i næsten et årti. Replikering er en af ​​HBases mest populære funktioner, da den giver en automatisk disaster-recovery (DR) løsning, understøtter datamigrering, understøtter arbejdsbelastningsopdeling og/eller understøtter et søgebaseret sekundært indeks gennem integration med Apache Solr. En detaljeret diskussion af, hvordan HBase Replication virker, og hvordan man konfigurerer replikering, er forklaret i HBase Reference Guide og er blevet diskuteret i mange Cloudera Blog-artikler. I dag understøtter det mange topologier, herunder:

  • Fan-in 
  • Fan-out
  • cyklisk
  • Tovejs

HBase-replikering kan konfigureres på enten navneområdet (dvs. database) eller tabelniveau. Mens den er næsten i realtid, kan den konfigureres til at være konsistent eller tidslinjekonsistent.

Cloudera OpDB Replication Plugin understøtter kun en destinationsklynge leveret af en CDP DataHub Cluster eller af en COD-database, implementeret i enten AWS eller Azure.

Etablering af tillid

HBase-replikering til dato har krævet, at alle deltagende klynger har de samme sikkerhedsdefinitioner, med andre ord skal alle klynger enten ikke have nogen sikkerhed aktiveret (godkendelseskonfiguration indstillet til simpel) , eller alle klynger skal have sikkerhed aktiveret med kerberos (godkendelseskonfiguration indstillet til kerberos) .

Når Kerberos bruges, skal alle klyngers kerberos-principaler tilhøre det samme rige, eller hvis de er i forskellige områder, skal de være pålidelige mellem hinanden (almindeligvis kendt som cross-realm Godkendelse).

Konfiguration af tillid på tværs af rige med Kerberos er problematisk i de fleste organisationer, da virksomhedernes sikkerhedspolitikker typisk forbyder det. For at løse dette problem skal du bruge Cloudera OpDB Replication plugin udvider HBase-replikering til at bruge en alternativ godkendelsesmetode, hvilket muliggør replikering på tværs af sikkerhedsdomæner. Replikeringspluginnet tillader replikering 

  • På tværs af flere Kerberos-domæner uden at kræve tillid på tværs af verden
  • replikering fra sikre til usikre klynger, og 
  • Replikering fra usikre til sikre klynger.

For at etablere tillid fra CDP-klynger til klynger, der enten ikke har nogen sikkerhedskonfigurationer eller er sikret ved hjælp af Kerberos, implementerer replikeringsplugin'et en ny godkendelsesmekanisme ved hjælp af en delt hemmelighed, som er oprettet ved hjælp af et medfølgende værktøj og lagret i både kilde- og destinationsklynger.

Konklusion

Replikering er et værdifuldt værktøj til implementering af DR- og datacenter(DC)-migreringsløsninger til HBase. Det har nogle forbehold, som vist her, når det drejer sig om klyngers sikkerhedskonfigurationer. Med den forestående afslutning af levetiden for CDH 5 og HDP 2 er evnen til at migrere data fra disse ældre platforme til CDP bydende nødvendig.

For kunder med HDP3-, CDH6- og EMR 5.28-baserede HBase-implementeringer gør dette plugin disse kunder i stand til problemfrit at adoptere en fuldt administreret HBase-løsning og drastisk reducere de operationelle omkostninger ved at administrere HBase.

Kontakt dit Cloudera-kontoteam, hvis du er interesseret i at implementere Cloudera OpDB Replication Plugin i dit miljø.


  1. Hvordan får man alle nøgler, der matcher et bestemt mønster, fra en hash i redis?

  2. Forstå MongoDB-indekser

  3. Hvad er den maksimale værdistørrelse, du kan gemme i redis?

  4. Sammenligning af mongoose _id og strenge