sql >> Database teknologi >  >> NoSQL >> HBase

Opbygning af en skalerbar proces ved hjælp af NiFi, Kafka og HBase på CDP

Navistar er en førende global producent af kommercielle lastbiler. Med en flåde på 350.000 køretøjer skabte uplanlagt vedligeholdelse og køretøjsnedbrud løbende forstyrrelser i deres forretning. Navistar krævede en diagnoseplatform, der ville hjælpe dem med at forudsige, hvornår et køretøj havde brug for vedligeholdelse for at minimere nedetiden. Denne platform skulle være i stand til at indsamle, analysere og betjene data fra over 70 telematik- og sensordatafeeds fra hvert køretøj i deres flåde, inklusive data, der måler motorydelse, kølevæsketemperatur, lastbilhastighed og bremseslid. Navistar henvendte sig til Cloudera for at hjælpe med at bygge en IoT-aktiveret fjerndiagnoseplatform, kaldet OnCommand® Connection, for at overvåge deres køretøjers tilstand og øge køretøjets oppetid.

Denne blog demonstrerer brugen af ​​lignende teknologier til at løse problemer, der er meget mindre i omfang, men med paralleller til dem, Navistar stod over for. Data blev hentet fra en meget modificeret, højtydende Corvette (se fig. 1) for at vise trinene til at indlæse data fra en ekstern kilde, formatere dem ved hjælp af Apache NiFi, skubbe dem til en streamkilde gennem Apache Kafka og gemme dem ved hjælp af Apache NiFi. Apache HBase til yderligere analyse.

Fig 1. 2008 Corvette med modificeret 6,8L motor

For dette specifikke eksempel har den pågældende Corvette fået alle de originale fabriksmotorkomponenter udskiftet til fordel for dele med højere ydeevne. Motoren blev revet ned til dens skal, cylindrene borede, krumtapakslen og knastakslen blev udskiftet, og nye stempler og plejlstænger blev installeret, hvilket jagtede målet på ~600 hestekræfter (se fig. 2). For at denne nye motorkonfiguration skulle fungere korrekt, gennemgik motorens software en komplet revision. Mens et tryk på gashåndtaget blev væsentligt mere dramatisk, var en utilsigtet konsekvens, at bilens originale diagnose- og fejlsystemer ikke længere var nøjagtige og derfor måtte deaktiveres.

Fig 2. Motor midt ombygning med alle nye skinnende indre dele

For at fange og analysere Corvettens sensordata var der behov for en sti, så dataene kunne flyde fra bilen til en alternativ analyse- og diagnoseplatform. Det første skridt var at tilslutte en bærbar computer til Corvettens diagnoseport (se fig. 3) for at importere sensordata til en skybaseret lagerplacering. S3 blev brugt til dette projekt.

Fig. 3. Bærbar computer tilsluttet til diagnosticeringsport via USB

Det næste trin var at bruge Cloudera Data Platform (CDP), Clouderas multifunktionelle multi-analytiske platform, til at få adgang til de tjenester, der er nødvendige for at flytte dataene til dens endelige lagerdestination for yderligere analyse. Ved hjælp af CDP Public Cloud blev der oprettet 3 datahubs, som hver hostede et sæt færdigpakkede open source-tjenester (se fig. 4):

  • Den første opsætning var NiFi, en tjeneste, der er bygget til at automatisere og styre datastrømmen. NiFi blev brugt til at importere, formatere og flytte Corvettens data fra kilden til dens endelige lagringspunkt.
  • Det næste var at konfigurere Kafka, en streamingtjeneste i realtid, der gør det muligt at få store mængder data til rådighed som en stream. Kafka giver mulighed for streambehandling af dataene, samtidig med at andre brugere får mulighed for at abonnere på datastrømmene. I dette eksempel er der ingen abonnenter; dette er dog et vigtigt koncept, som fortjener en demonstration af, hvordan det konfigureres.
  • Den endelige opsætning var HBase, en meget skalerbar, kolonneorienteret operationel database, der giver læse/skriveadgang i realtid. Når først data blev importeret til HBase, ville Phoenix blive brugt til at forespørge og hente data.

Fig. 4. Corvette-dataflowdiagram fra kilde til forespørgsel.

At bygge diagnoseplatformen ved hjælp af CDP til at overvåge Corvettens helbred og ydeevne var en vellykket øvelse. Brug af NiFi og Kafka til at formatere og streame sensordataene til HBase giver nu mulighed for at udføre avanceret datateknik og -behandling, uanset hvor stort datasættet vokser.

Næste trin

For at se alt dette i aktion, se venligst links nedenfor til et par forskellige kilder, der viser den proces, der blev oprettet.

  • Video – Hvis du gerne vil se og høre, hvordan dette blev bygget, så tag et kig på en hurtig 5-minutters video, der viser realtidsnavigation af CDP, der kører NiFi, Kafka og HBase.
  • Tutorials – Hvis du gerne vil gøre dette i dit eget tempo, kan du se en detaljeret gennemgang med skærmbilleder og linje for linje instruktioner om, hvordan du opsætter dette.
  • MeetUps – Hvis du vil tale direkte med eksperter fra Cloudera og endda ejeren af ​​denne Corvette, skal du deltage i et virtuelt møde for at se hans livepræsentation. Der vil være tid til direkte spørgsmål og svar til sidst.
  • CDP-brugerside – Klik på linket for at lære om andre CDP-ressourcer bygget til brugere, inklusive yderligere video, tutorials, blogs og begivenheder.

  1. Importer CSV-data som et array i MongoDB ved hjælp af mongoimport

  2. MongoDB $strcasecmp

  3. At vide, hvornår resque-medarbejderen havde afsluttet jobbet

  4. ServiceStack Entities Id feltnavn