sql >> Database teknologi >  >> NoSQL >> HBase

Forstå Hadoop High Availability Feature

Denne blog giver dig en beskrivelse af Hadoop HDFS High Availability funktion. I denne blog vil vi først diskutere, hvad præcis høj tilgængelighed er, hvordan Hadoop opnår høj tilgængelighed, hvad er behovet for HDFS høj tilgængelighedsfunktion.

Vi vil også dække eksemplet med Hadoop høj tilgængelighedsfunktion i denne Big data Hadoop tutorial.

Hvad er Hadoop HDFS High Availability?

Hadoop HDFS er et distribueret filsystem. HDFS distribuerer data mellem noderne i Hadoop-klyngen ved at oprette en replika af filen. Hadoop framework gemmer disse replikaer af filer på de andre maskiner, der findes i klyngen.

Så når en HDFS-klient ønsker at få adgang til sine data, kan han nemt få adgang til disse data fra en række maskiner til stede i klyngen. Data er let tilgængelige i den nærmeste node i klyngen.

Ved nogle ugunstige forhold, som f.eks. en fejl i en node, kan klienten nemt få adgang til deres data fra de andre noder. Denne funktion i Hadoop kaldesHøj tilgængelighed .

Hvordan opnås høj tilgængelighed i Hadoop?

I HDFS-klyngen er der en række DataNodes . Efter det bestemte tidsinterval sender alle disse DataNodes hjerteslagmeddelelser til NameNode . Hvis NameNode holder op med at modtage hjerteslagsmeddelelser fra nogen af ​​disse DataNodes, antager den, at den er død.

Derefter tjekker den for de data, der er til stede i disse noder, og giver derefter kommandoer til den anden datanode for at oprette en replika af disse data til andre datanoder. Derfor er data altid tilgængelige.

Når en klient beder om en dataadgang i HDFS, søger NameNode først og fremmest efter dataene i de datanoder, hvor data er hurtigt tilgængelige. Og giver derefter adgang til disse data til klienten.

Kunder behøver ikke at søge efter dataene i alle datanoderne. HDFS Namenode i sig selv gør datatilgængelighed let for klienterne ved at angive adressen på datanoden, hvorfra en bruger kan læse direkte.

Eksempel på Hadoop High Availability

Hadoop HDFS giver høj tilgængelighed af data. Når klienten anmoder NameNode om dataadgang, så søger NameNode efter alle de noder, hvor disse data er tilgængelige.

Derefter giver den adgang til disse data til brugeren fra den node, hvor data hurtigt var tilgængelige. Mens du søger efter data på alle noderne i klyngen, omdirigerer NameNode, hvis NameNode finder en node død, uden brugerviden. bruger til den anden node, hvor de samme data er tilgængelige.

Uden nogen afbrydelse stilles data til rådighed for brugeren. Så under forhold med knudefejl er data også meget tilgængelige for brugerne.

Hvad var problemerne i ældre systemer?

  • Data var utilgængelig på grund af maskinnedbrud.
  • HDFS-klienten skal vente i lang tid for at få adgang til deres data. Det meste af tiden skal brugere vente i en bestemt periode, indtil hjemmesiden er klar.
  • Begrænsede funktioner og funktioner.
  • På grund af utilgængelighed af data bliver gennemførelsen af ​​mange større projekter i organisationer forlænget i en lang periode, og derfor er virksomheder nødt til at gennemgå kritiske situationer.

Konklusion

Derfor er In Hadoop-data yderst tilgængelige og tilgængelige på trods af hardwarefejl på grund af flere kopier af data. Så hvis nogen node eller maskiner går ned eller går ned, kan dataene få adgang til data fra en anden sti. Lær flere HDFS-funktioner.

Hvis du finder denne blog nyttig om Hadoop High Availability, så del venligst dine tanker i kommentarfeltet.


  1. Genopret pålidelig forbindelse til MongoDB

  2. MongoDB-værktøjer fra fællesskabet, der komplementerer ClusterControl

  3. Installation af Redis på Ubuntu 16.04/18.04

  4. Når jeg starter blomst, får jeg følgende:dbm.error:db-typen er dbm.gnu, men modulet er ikke tilgængeligt