sql >> Database teknologi >  >> NoSQL >> HBase

20 bemærkelsesværdig forskel mellem Hadoop 2.x og Hadoop 3.x

Formålet med denne Hadoop-tutorial er at give dig en klarere forståelse mellem forskellige Hadoop-versioner. I denne blog har vi dækket top 20 forskelle mellem Hadoop 2.x vs Hadoop 3.x.

Denne blog dækker forskellen mellem Hadoop 2 og Hadoop 3 på baggrund af forskellige funktioner.

Forskellen mellem Hadoop 2.x og Hadoop 3.x

Apache Hadoop er en open source-softwareramme til distribueret lagring og behandling af enorme mængder datasæt.

Hadoop 3.x blev introduceret for at overvinde begrænsningen af ​​Hadoop 2.x. Hadoop 3.x har tilføjet nogle nye funktioner, selvom de gamle funktioner stadig bruges.

Detaljeret funktionsmæssig sammenligning mellem Hadoop 2.x vs Hadoop 3.x er givet nedenfor:

a. Licens

  • Hadoop 2 .x- Apache 2.0, open source
  • Hadoop 3 .x- Apache 2.0, open source

b. Minimum understøttet version af Java

  • Hadoop 2 .x- Java 7.
  • Hadoop 3 .x- Java 8.

c. Fejltolerance

  • Hadoop 2.x- I denne version håndterer replikering fejltolerance.
  • Hadoop 3.x- I denne version håndterer sletningskodning fejltolerance.

d. Databalancering

  • Hadoop 2.x- Bruger HDFS Balancer til databalancering
  • Hadoop 3.x- Bruger Intra-data node balancer, som aktiveres via HDFS diskbalancer CLI.

e. Opbevaringsskema

  • Hadoop 2.x- Bruger 3X-replikeringsskema.
  • Hadoop 3.x- Bruger slettekodning.

f. Opbevaringsomkostninger

  • Hadoop 2.x- I denne version har HDFS 200 % overhead i lagerplads.
  • Hadoop 3.x- I denne version har HDFS 50 % overhead i lagerplads.

g. Eksempel på lageroverhead

  • Hadoop 2.x- Hvis der er 6 blokke og 3x replikering af hver blok, så resulterer det i 18 blokke. Det vil optage 18 blokke plads.
  • Hadoop 3.x- Hvis der er 6 blokke, så vil den optage 9 blokplads, dvs. 6 blokke og 3 for paritet.

h. YARN Timeline Service

  • Hadoop 2.x- Bruger gammel tidslinjetjeneste, som har problemer med skalerbarhed.
  • Hadoop 3.x- Denne version forbedrer tidslinjetjenesten v2. Det forbedrer også skalerbarheden og pålideligheden af ​​tidslinjetjenesten.

j. Standardportområde

  • Hadoop 2.x- I denne version er standardportene Linux ephemeral port range. Derfor vil de ikke binde sig på tidspunktet for opstart.
  • Hadoop 3.x- Mens denne version er flyttet ud af flygtig rækkevidde.

k. Værktøjer

  • Hadoop 2.x- Hive, gris, Tez, Hama og andre Hadoop-værktøjer er også tilgængelige.
  • Hadoop 3.x- I denne version er også Hive, pig, Tez, Hama og andre Hadoop-værktøjer tilgængelige.

l. Kompatibelt filsystem

  • Hadoop 2.x- Det understøtter HDFS (Standard FS), FTP-filsystem:Dette gemmer også alle dets data på fjerntilgængelige FTP-servere. Det understøtter også Amazon S3 (Simple Storage Service) filsystem Windows Azure Storage Blobs (WASB) filsystem.
  • Hadoop 3.x- Det understøtter alt det foregående såvel som Microsoft Azure Data Lake-filsystemet.

m. Datanode-ressourcer

  • Hadoop 2.x- For MapReduce er Datanode-ressourcen ikke dedikeret. Vi kan også bruge det til andre applikationer.
  • Hadoop 3.x- I denne version kan dataknude-ressource også bruges til andre applikationer.

n. MR API-kompatibilitet

  • Hadoop 2.x- MR API kompatibel med Hadoop 1.x-programmet til at køre på Hadoop 2.X
  • Hadoop 3.x- MR API er også kompatibel med at køre Hadoop 1.x-programmer til afvikling på Hadoop 3.X

o. Support til Microsoft

  • Hadoop 2.x- Det kan installeres på Windows.
  • Hadoop 3.x- Det understøtter også Microsoft Windows.

s. Slots/beholder

  • Hadoop 2.x- Hadoop 1.x arbejder på konceptet med slots, mens Hadoop 2.X arbejder på konceptet med containeren.
  • Hadoop 3.x- Hadoop 3.x arbejder også på konceptet med en container.

q. Single point of failure

  • Hadoop 2.x- Det har funktionerne til at overvinde SPOF. Så hver gang NameNode fejler, genoprettes den automatisk.
  • Hadoop 3.x- Det har også funktionerne til at overvinde SPOF. Så hver gang NameNode fejler, genoprettes den automatisk, og der er ikke behov for manuel indgriben.

r. HDFS Federation

  • Hadoop 2.x- I Hadoop 1.x kun en enkelt NameNode til at administrere alle Namespace. Men Hadoop 2.x har flere NameNode til flere Namespace.
  • Hadoop 3.x-  Den har også flere Namenode til flere navneområder.

s. Skalerbarhed

  • Hadoop 2.x- Vi kan skalere op til 10.000 noder pr. klynge.
  • Hadoop 3.x- Vi kan skalere mere end 10.000 noder pr. klynge.

t. HDFS Snapshot

  • Hadoop 2.x- Det tilføjer understøttelse af et øjebliksbillede. Det giver også nødgendannelse og beskyttelse mod brugerfejl.
  • Hadoop 3.x- Det understøtter også snapshot-funktionen.

u. Platform

  • Hadoop 2.x- Det fungerer som en platform for en bred vifte af dataanalyse. Det er også muligt at køre hændelsesbehandling, streaming og realtidsoperationer.
  • Hadoop 3.x- Det er også muligt at køre hændelsesbehandling, streaming og drift i realtid på toppen af YARN.

Konklusion

Som konklusion har Hadoop 3.0 tilføjet nye funktioner som slettekodning for at håndtere fejltolerance. Hadoop 3.x reducerer også lageromkostningerne med 200 % til 50 %.

Det introducerede også et nyt kommandolinjeværktøj kaldet Disk balancer. Derfor har Hadoop 3.x forbedret den samlede ydeevne.

Hvis du finder nogen anden forskel mellem Hadoop 2.x vs Hadoop 3.x, så lad os det vide i kommentarfeltet.


  1. MongoDB-as-a-Service i Canada

  2. Sådan får du adgang til MongoDB Instance 4.2?

  3. $spring og $limit i aggregeringsramme

  4. Kollisionssandsynlighed for ObjectId vs UUID i et stort distribueret system