sql >> Database teknologi >  >> RDS >> Database

Hvorfor lære Cassandra med Hadoop?

"Virksomheder indser, at de kan udvinde værdifuld business intelligence for at forbedre beslutningstagningen og opnå konkurrencefordel. Værktøjer som Hadoop og Cassandra gør alt dette muligt, og på grund af det er NoSQL-færdigheder på alle niveauer meget efterspurgte." – Analytikere på TechRepublic

Udviklet som et internt projekt hos Facebook for at drive deres Inbox-søgefunktion, Cassandra er et Open Source Distributed Database Management System . Det blev udgivet som et open source-projekt på Google Code i 2008 og er efterfølgende blevet et projekt på øverste niveau i Apache Software Foundation siden 2010.

Cassandra er den næste STORE ting:

  • Apache Cassandra er designet til at håndtere enorme mængder data (med hensyn til hastighed, volumen og variation) på tværs af adskillige råvareservere, der sikrer høj tilgængelighed og giver ingen SPOF (Single Point of Failure).
  • Cassandra tilbyder også potent support til klynger, der spænder over flere datacentre. Fraværet af "Master-slave-struktur", ligesom traditionelle arkitekturer, tillader nul indvirkning på systemet, hvis en bestemt node går ned.
  • Forskere fra University of Toronto, der udfører undersøgelse af NoSQL-systemer, udtaler, at med hensyn til skalerbarhed og maksimal gennemstrømning pr. node , Cassandra fremstår som en klar vinder. Hovedfokus for NoSQL DBMS er at sikre Skalerbarhed , Ydeevne og Høj tilgængelighed. Som de fleste NoSQL DBMS kan Cassandra håndtere både strukturerede og ustrukturerede data og klarer sig betydeligt godt på ovenstående parametre.
  • Cassandra kan fungere som både datalager i realtid ("registreringssystemet") til online-/transaktionsapplikationer og som en læse-intensiv database til Business Intelligence-systemerne. Læs vores blogindlæg om forskellige fordele, som Cassandra tilbyder, for mere information.

Hvorfor gå til Hadoop med Cassandra?

Enkelt sagt at have:

  • Enslet arbejdsbyrde
  • Tilgængelighed
  • Enklere implementering

Når det kommer til Hadoop, er virksomheder ikke interesserede i Hadoops underliggende lagerstruktur, men dens omkostningseffektive leveringsmetoder til at analysere og behandle enorme mængder data. At kunne træffe beslutninger ud fra output fra MapReduce, Hive, Pig, Mahout og andre operationer er det, der betyder mest for disse organisationer.

Nøglepunkter at huske:

  • Hadoop Distributed File System (HDFS) er en af ​​mange forskellige komponenter og projekter indeholdt i Hadoop-økosystemet. Apache Hadoop-projektet definerer HDFS som det primære lagersystem, der bruges af Hadoop-applikationer .HDFS kan gemme massive distribuerede ustrukturerede datasæt. Data kan lagres direkte i HDFS, eller de kan lagres i et semi-struktureret format i HBase, som giver hurtig adgang til data på rekordniveau og er modelleret efter Googles BigTable-system. Cassandra på den anden side er en ikke- relationssystem, der bruger BigTable-datamodellen , men anvender Amazons Dynamo-ordning til datadistribution og klyngedannelse.
  • Hadoop gør mange gode ting, dens kerne MapReduce-funktioner er meget stærke. Brancheeksperter elsker Hive og dets SQL-lignende design. Men HDFS-filsystemet er ekstremt komplekst at konfigurere, har enkelte fejlpunkter og – ifølge feedback fra større virksomheder er det bare ikke klar til at gøre, hvad de vil have det til at gøre . Cassandra på den anden side giver alle mulighederne på det lavere niveau af Hadoop-stakken. Cassandra leverer samtidig også realtidsapplikationsfunktioner med lav latens i netop den infrastruktur.

Hvordan kan Cassandra og Hadoop arbejde sammen?

En række leverandører tilbyder alternativer til HDFS. Et nyligt papir fra en organisation kaldet GigaOM giver et overblik på højt niveau over, hvordan Apache Cassandra File System kan bruges til at erstatte HDFS, med minimale programmeringsændringer, der kræves ud fra et udviklingsperspektiv, og hvordan en række fordele kan høstes i denne proces. DataStax , en førende kommerciel udbyder af distributioner af Cassandra har kombineret Cassandra med Hadoop og navngivet det Brisk. Med Brisk er HDFS erstattet af Cassandra File System. Udforsk mere om HDFS-koncepter. Tjek dette Online Big Data kursus , som blev skabt af Top Industrial Working Experts.

Fordel ved Cassandra – Hadoop-kombination:

  • Man kan også implementere Cassandra med Hadoop på den samme klynge. Det betyder, at du kan få det bedste fra begge verdener.
  • Ttidsbaseret og realtid kører under Cassandra applikationer (det er Cassandras styrke i realtid), mens du er batch-baseret analyse og forespørgsler der ikke kræver et tidsstempel, kan køre på Hadoop. I denne form for økosystem er HDFS erstattet af Cassandra, og dette er usynligt for udvikleren. Man kan omtildele dynamisk noder mellem Cassandra- og Hadoop-miljøerne efter behov.
  • Cassandra File System fjerner de enkelte fejlpunkter der er knyttet til HDFS, nemlig NameNode og Job Tracker fejlpunkter, der er forbundet med HDFS.

Idéen er derfor at kombinere Cassandra, som er pionerer selv med højvolumen transaktionsbehandling i realtid , med Hadoop som udmærker sig ved mere batch-orienterede analytiske løsninger .

Cassandra and the Biggies:

Mange organisationer på tværs af branchevertikaler omfavner Cassandra for at nå forskellige forretningsmål. Nogle fremtrædende er:

  • Netflix – Bruger Cassandra som deres backend-database til deres streamingtjenester.
  • Ciscos WebEx – Bruger Cassandra til at gemme brugerfeed og aktivitet i næsten realtid.
  • SoundCloud – Bruger Cassandra til at gemme deres brugeres dashboard.
  • IBM – Har forsket i at bygge et skalerbart e-mailsystem baseret på Cassandra

Jobtitler, der involverer Hadoop og Cassandra-færdigheder:

Undersøgelse foretaget af Simplyhired viser, at Cassandra-job er i høj efterspørgsel på grund af dens høje adoptionsrate i branchen, især i de sidste par år. Og fremtiden ser meget lovende ud.

Lad os se på nogle af de jobtitler, der involverer Hadoop-Cassandra-færdigheder og deres løn, nævnt i Indeed.com:

  • Dataarkitekt: Denne stilling giver en gennemsnitlig løn på $107.000. Dataarkitekter skal have en vis erfaring med at skabe datamodeller, data warehousing, analysere data og datamigrering
  • Data Scientist: De indsamler data, analyserer dem, præsenterer dataene visuelt og bruger dataene til at lave forudsigelser/prognoser. Den gennemsnitlige løn for en dataforsker er $104.000
  • Systemingeniør: Den gennemsnitlige løn for systemingeniører er $89.000.
  • DBA: DBA'er tjener i gennemsnit over $100.000.
  • Softwareapplikationsudvikler: Softwareudviklere tjener en gennemsnitlig løn på 107.000 USD og applikationsudviklere 93.000 USD. Folk med disse færdigheder kan få rigeligt freelancearbejde eller kan starte deres egen startup, hvis de har iværksætterånden.

Relaterede indlæg:

Valg af den rigtige NoSQL-database.

Hvordan åbnes CQLSH af Cassandra installeret på Windows?


  1. Oracle SqlPlus - gemmer output i en fil, men vises ikke på skærmen

  2. Proaktive SQL Server-sundhedstjek, del 4:FEJLLOG

  3. Hvad forårsager More er ikke genkendt... fejl, når du kører Postgresql 11 på en Windows-maskine?

  4. Forstå Workload Analyzer til at kortlægge ydeevneflaskehalse