sql >> Database teknologi >  >> NoSQL >> HBase

CDH 6.2-udgivelse:Hvad er nyt i HBase

Cloudera lancerede for nylig CDH 6.2, som indeholder to nye nøglefunktioner i Apache HBase:

  1. Seriel replikering
  2. Bucket cache understøtter nu Intels Optane-hukommelse

Seriel replikering

HBase har en sofistikeret asynkron replikationsmekanisme, der understøtter komplekse topologier i dag, der inkluderer globale round-robin, to-vejs, span-in og span-out topologier.

Denne replikeringsevne giver til dato en eventuel konsistens - hvilket betyder, at rækkefølgen, som opdateringer replikeres i, ikke nødvendigvis er den samme som den rækkefølge, de blev anvendt i databasen. Selvom dette fungerede for mange kunder, var rækkefølgen af ​​opdateringer på replikeringsslutpunktet vigtig for mange use cases.

Seriel replikeringsfunktionen giver tidslinjekonsistens for replikering. Med andre ord bevares rækkefølgen af ​​opdateringer gennem replikering til destinationsklyngen. Der er en lille pris for denne konsistens, og i nogle tilfælde kan brugerne opleve, at replikering er lidt langsommere end standardreplikeringsmetoden.

Konfigurationen af ​​denne indstilling er ret enkel (indstil SERIAL-flaget til sand) og kan anvendes på tidspunktet for replikeringsopsætning eller når som helst derefter på tabelniveau, navnerumsniveau eller for en peer, der replikerer alle tabeller i HBase.

HBase bucket cache

HBases bucket cache er en 2-lags cache, der er designet til at forbedre klar ydeevne på tværs af en række forskellige anvendelsessager. Det første lag er i Java-heapen, og det andet lag af cachen kan ligge på en række forskellige steder, herunder:off-heap-hukommelse, Intel Optane-hukommelse, SSD'er eller HDD'er.

Den anbefalede konfiguration for bucket cachens andet lag for de fleste kunder har været off-heap. Implementeringer i denne konfiguration er i stand til at skalere op til meget større hukommelsesstørrelser, end det er muligt med den indbyggede on-heap-cache, da off-heap-motoren undgår JVM-skraldsopsamlingstryk. Den større cachestørrelse giver væsentligt forbedret HBase-læseydelse.

Startende med CDH 6.2 inkluderer Cloudera nu muligheden for at bruge Intels nyligt udgivne Optane Memory som en alternativ destination for 2. niveau af bucket-cachen. Denne implementeringskonfiguration giver dig mulighed for at have ~3x størrelsen af ​​cachen til konstante omkostninger (sammenlignet med off-heap cache på DRAM). Det medfører en vis ekstra forsinkelse sammenlignet med den traditionelle off-heap-konfiguration, men vores test indikerer, at ved at tillade mere (hvis ikke alle) af dataens arbejdssæt at passe i cachen, resulterer opsætningen i en nettoydelsesforbedring, når dataene er i sidste ende gemt på HDFS (ved hjælp af HDD'er).

Når du implementerer til skyen eller bruger on-prem objektlagring, vil ydeevneforbedringen være endnu bedre, da objektlagring har tendens til at være meget dyrt for tilfældige læsninger af små mængder data. Tabellen nedenfor giver en fornemmelse af omkostningerne, størrelsen og ventetiden, der kræves, når man planlægger, hvordan man konfigurerer det andet niveau af bucket-cachen.

Lagring $ Pris/GB Størrelse (konstant pris) Latens
Off-heap DRAM 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233,3 GB 10-100 µs
HDD² 0,027 1,3 TB 4-10 ms
Objektlager³ 0,006 5,8 TB 10-100 ms

Læs denne blog for at lære mere om Intel og Cloudera-samarbejdet om udnyttelse af Optane DC Persistent Memory til forbedring af ydeevnen.

Referencer:

  1. Optane DC Persistent Memory Performance Overview (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minut 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ products/data-center-drives#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf

  1. PostgreSQL vs. MongoDB

  2. Introduktion til Redis-datastrukturer:Hashes

  3. Sådan filtreres array i underdokument med MongoDB

  4. Django Selleri få opgavetælling