sql >> Database teknologi >  >> NoSQL >> HBase

Forbedringer af operationel databaseydelse i CDP Private Cloud Base 7 vs CDH5

Cloudera Data Platform (CDP) Private Cloud er den mest omfattende lokale platform til integreret analyse og dataadministration. Den kombinerer det bedste fra Cloudera Enterprise Data Hub og Hortonworks Data Platform Enterprise Plus og bringer de nyeste og bedste open source-teknologier til datastyring og -analyse til datacentret.

Med den seneste version (7) af CDP Private Cloud Base har vi introduceret en række nye funktioner og forbedringer. I dette blogindlæg vil vi gerne dele de præstationsforbedringer, der er tilgængelige i Apache HBase.

For dem, der er nye til HBase eller er ved at evaluere det til et nyt projekt, er HBase en ikke-relationel distribueret database, der er tillid til af arkitekter og udviklere, der ønsker at behandle store mængder data på en rettidig og pålidelig måde.

Til denne præstationssammenligning målte vi HBase2 tilgængelig i CDP Private Cloud Base 7 til Hbase1 tilgængelig i CDH 5 ved hjælp af YCSB-arbejdsbelastninger. Sammenligningen hjælper os med at forstå ydeevneforbedringer og implikationer for kunder, der foretager opgraderinger på stedet uden ændringer af underliggende hardware.

Bemærk:Kunder, der opgraderer fra CDH 5 til CDP 7, får også en HBase-opgradering fra HBase1 til HBase2.

  • Tilpasset YCSB-opdatering kun arbejdsbelastning
    • Vores tilpassede YCSB Update Only-arbejdsbelastning udføres 
      • 100 % OPDATERING
    • Et applikationseksempel ville være et metrics-lager
    • Ydeevne for arbejdsbelastning: CDP 7 YCSB-opdatering Kun arbejdsbyrdekørsel (operationer pr. sekund) var 20 % bedre end ved kørsel med CDH5

  • YCSB WorkloadA 
    • YCSB Workload A udfører 
      • 50 % LÆS-handlinger
      • 50 % OPDATERING
    • Et applikationseksempel ville være en sessionsbutik, der registrerer seneste handlinger i en brugersession 
    • Ydeevne for arbejdsbelastning:CDP Private Cloud Base 7.1 HBase2 YCSB-arbejdsbelastning En gennemstrømning (operationer pr. sekund) var 15 % bedre end CDH5 HBase1

  • YCSB Workload C (skrivebeskyttet) 
    • YCSB Workload C er en skrivebeskyttet arbejdsbelastning og udfører 
      • 100 % LÆS-handlinger
    • Et applikationseksempel ville være læst brugerprofilcache, når profiler er konstrueret andre steder (f.eks. Hadoop) eller et banksystem for at få adgang til og se kontoudtog 
    • Ydeevne for arbejdsbelastning:CDP 7 YCSB-arbejdsbelastning C havde samme gennemløb (operationer pr. sekund) som CDH 5

Bedømmelse – CDP 7 giver forbedret ydeevne end CDH 5 i YCSB  

Kun tilpasset opdateringsarbejdsbelastning :CDP 7 YCSB Update kun arbejdsbelastning udført 20 % bedre end C5.

YCSB-arbejdsbelastning A :CDP 7 YCSB arbejdsbelastning A klarede sig 15 % bedre end CDH5.

YCSB-arbejdsbelastning C :CDP 7 YCSB skrivebeskyttet arbejdsbelastning C havde lignende operationer/gennemstrømning til CDH 5 

Under vores test har vi bemærket, at opgradering fra JDK8 til JDK 11 inden for CDP 7 kan forbedre ydeevnen med yderligere 10 %. Dette er ud over ydeevneforbedringer opnået ved at opgradere fra CDH5 til CDP7.

CDP 7 leveres med JDK8 installeret som standard og understøtter en opgradering til JDK11. I vores testkørsler blev CDP 7 opdateret til at bruge JDK 11 til YCSB-arbejdsbelastningskørsler vist ovenfor. Vi kørte også de samme arbejdsbelastninger med JDK8, og testresultaterne viste, at JDK11-ydelsen er 5-10 % bedre sammenlignet med JDK8 , som vist i nedenstående diagram

For at opgradere CDP 7 fra JDK 8 til OpenJDK 11 skal du følge nedenstående trin:

Trin 1:Installer OpenJDK11 på alle værter ved hjælp af nedenstående

RHEL 

sudo yum install java-11-openjdk

Ubuntu

sudo apt install openjdk-11-jdk

Trin 2:Kun på Cloudera Manager Server-værten (ikke påkrævet for andre værter):

  1. Åbn filen /etc/default/cloudera-scm-server i en teksteditor.
  2. Rediger linjen, der begynder med eksport JAVA_HOME (hvis denne linje ikke findes, tilføj den) og skift stien til stien til det nye JDK (JDK er normalt installeret i / usr/lib/jvm)(eller /usr/lib64/jvm på SLES 12), men stien kan variere afhængigt af hvordan JDK blev installeret).

For mere information om opgradering af JDK, følg venligst Opgradering af JDK

Testmiljø

Testmetode

CDH 5.16.3/HBase1 blev installeret på klyngen, og arbejdsbelastningsdata med 1 milliard rækker (datasætstørrelse 1TB) blev genereret, og CDH 5.16.3 YCSB-arbejdsbelastninger blev kørt. Efter indlæsning ventede vi på, at alle komprimeringsoperationer var færdige, før vi startede arbejdsbelastningstesten.

Da CDH 5.16.3-kørsler var afsluttet, blev CDP Private Cloud Base 7.1 HBase2 reninstalleret, og dataene blev gengenereret på den samme klynge. CDP Private Cloud Base 7.1 YCSB-arbejdsbelastningerne blev derefter kørt for at få testtimingerne. Før hver arbejdsbelastningskørsel initialiserede vi HBase-tabellen, der blev brugt af YCSB. Snapshot af brugertabellen utable_snap blev oprettet og anvendt før hver kørsel.

Hver testet arbejdsbelastning blev kørt 3 gange i 15 minutter hver for at måle gennemløb*. De viste resultater er gennemsnittet fra de 3 tests.

*Throughput (ops/sek) =antal operationer pr. sekund

CDP Private Cloud Base 7.1 inkluderer HBase2 og CDH 5.16.3 inkluderer HBase1. Både CDP Private Cloud Base 7.1 og CDH5 har JDK 8 installeret. CDP Private Cloud Base 7.1 understøtter JDK11 og CDP Private Cloud Base 7.1 blev opdateret til at bruge JDK 11 til YCSB-test, CDH 5.13.3-kørsler blev kørt med JDK 8 (1.8.0_141)

Test konfigurationer

  • YCSB version 0.17.0
  • YCSB Binding Version hbase2(CDP-CD 7.1) og hbase1(CDH 5) 
  • YCSB-klienter brugte 2
  • YCSB-tråde pr. klient 20
  • Datastørrelse
    • YCSB-tabel @1TB-skala
    • Samlet antal poster i YCSB-tabellen 1.000.000.000 (1 TB), hver post er 1 KB
    • Antal regioner i YCSB-tabellen 250, med 5+1 node-klynge dens ca. 50 regioner pr. regionsserver
    • Gennemsnitlig områdelagerplads brugt pr. serverstørrelse 290G
  • HBase Region-servere blev konfigureret med 32 GB heap 
  • Kun L1-cache med LruBlockCache blev brugt med 12,3 GB cachestørrelse
  • L1 cache hit procent observeret under kørsler på regionsservere var 85 %
  • L2 off heap cache blev ikke konfigureret på klyngen

Klyngekonfigurationer

  • Anvendt klynge: 6 node-klynge (1 master + 5 regionsservere)
  • Beskrivelse: Dell PowerEdge R430, 20c/40t Xenon e5-2630 v4 @ 2,2Ghz, 128GB ram, 4-2TB diske
  • Sikkerhed: Ingen konfigureret (ingen Kerberos)

Cloudera-versioner sammenlignet

C7-version :CDP Private Cloud Base 7.1.0

C5-version: CDH5.16.3

Anvendte JDK'er:JDK 8 ( 1.8.0_141) og JDK 11 (11.0.6)

Baseret på vores test (resultaterne ovenfor), bør kunder, der ønsker at opgradere fra CDH 5 til CDP 7, forvente forbedret ydeevne for lignende arbejdsbelastninger sammenlignet med, hvad de får i dag.

Få flere oplysninger om Cloudera Operational DB her


  1. gemmer tidsserier i redis

  2. redis-server i ubuntu14.04:Bindadresse er allerede i brug

  3. Hvordan laver man rå mongodb-operationer i mongoose?

  4. Sådan gemmer du geospatial information i mongoDB