sql >> Database teknologi >  >> NoSQL >> HBase

Brug af Cloudera Data Engineering til at analysere dataene i lønsedlens beskyttelsesprogram

Paycheck Protection Program (PPP) er implementeret af den amerikanske føderale regering for at give virksomheder et direkte incitament til at holde deres ansatte på lønningslisten, især under Covid-19-pandemien. PPP hjælper kvalificerede virksomheder med at beholde deres arbejdsstyrke samt hjælper med at betale for relaterede forretningsudgifter. Data fra det amerikanske finansministeriums hjemmeside viser, hvilke virksomheder der modtog OPP-lån, og hvor mange job der blev bevaret. Det amerikanske finansministerium godkendte cirka en million OPP-lån i hele USA.

Analyse af disse data giver tre udfordringer. For det første er størrelsen af ​​dataene væsentlig. Mængden af ​​tid til at trække, kuratere, transformere, hente og rapportere om disse data er tidskrævende. For det andet vil datasættet sandsynligvis udvikle sig, hvilket vil kræve yderligere udviklingstid og ressourcer. Endelig, i en flertrinsproces som denne, er der en chance for, at tingene går i stykker. At have evnen til hurtigt at bestemme fejl eller flaskehalse vil hjælpe med at opfylde SLA'er konsekvent.

Denne blog illustrerer, hvordan Cloudera Data Engineering (CDE) ved hjælp af Apache Spark kan bruges til at producere rapporter baseret på PPP-dataene, mens de løser hver af de udfordringer, der er skitseret ovenfor.

Mål

Et falsk scenarie for Texas Legislative Budget Board (LBB) er sat op nedenfor for at hjælpe en dataingeniør med at administrere og analysere OPP-dataene. Det primære mål for denne dataingeniør er at forsyne LBB med to slutrapporter:

  • Rapport 1:Opdeling af alle byer i Texas, der beholdt arbejdspladser
  • Rapport 2:Opdeling af virksomhedstype, der beholdt jobs

Cloudera Data Engineering (CDE)

Det er her, Cloudera Data Engineering (CDE), der kører Apache Spark, kan hjælpe. CDE er en af ​​tjenesterne i Cloudera Data Platform (CDP), der gør det muligt for dataingeniører at oprette, administrere og planlægge Apache Spark-job, samtidig med at de giver nyttige værktøjer til at overvåge opgavens ydeevne, få adgang til logfiler og orkestrere arbejdsgange via Apache Airflow. Apache Spark er en databehandlingsramme, der er i stand til hurtigt at køre databehandling i stor skala.

Det amerikanske finansministerium leverer to forskellige datasæt, et for godkendte lån på over 150.000 USD og et for godkendte lån under 150.000 USD. For at producere de to slutrapporter for LBB blev disse trin fulgt (se fig. 1).

  • Det første trin var at indlæse de to separate datasæt i en S3-bøtte.
  • Der blev oprettet et Spark-job for hvert datasæt for at hente og filtrere data fra S3-bøtten.
  • Disse to Spark-job transformerede og indlæste de rene data til et Hive-datavarehus til genfinding.
  • Et tredje Spark-job blev oprettet for at behandle dataene fra Hive-datavarehuset for at oprette de to rapporter.

Når jobkørslerne var færdige, leverede CDE en grafisk repræsentation af de forskellige stadier i hvert Spark-job (se fig. 2). Dette gjorde det muligt for dataingeniøren nemt at se, hvilke dele af jobbet, der potentielt tog mest tid, og lod dem nemt forfine og forbedre deres kode for bedst muligt at opfylde kundernes SLA'er.

Fig. 1:Datarejse for at producere de to slutrapporter.

Fig. 2:CDE grafisk repræsentation af forskellige Spark-stadier.

Resultater

Det primære mål om at producere de to slutrapporter fra rekorden af ​​en million godkendte ansøgere blev opfyldt. Den grafiske oversigt over den første rapport (se fig. 3) viser en top 10-prøve af antallet af beholdte job pr. by i Texas, og den anden rapport (se fig. 4) viser en top 5-prøve af antallet af beholdte arbejdspladser efter virksomhedstype. Med disse rapporter kan Texas Legislative Budget Board f.eks. udlede, at byer med den mindste mængde jobfastholdelse pr. indbygger kan have brug for ressourcer for at mindske enhver økonomisk indvirkning.

Fig. 3:Top 10 byer, der beholdt flest arbejdspladser, Texas, 2020

Fig. 4:Top 5 virksomhedstyper, der beholdt flest job, Texas, 2020

Næste trin

For at se alt dette i aktion, klik venligst på links nedenfor til et par forskellige kilder, der viser den proces, der blev oprettet.

  • Video – Hvis du gerne vil se og høre, hvordan dette blev bygget, kan du se videoen på linket.
  • Tutorials – Hvis du gerne vil gøre dette i dit eget tempo, kan du se en detaljeret gennemgang med skærmbilleder og linje for linje instruktioner om, hvordan du opsætter og udfører dette.
  • Møde – Hvis du vil tale direkte med eksperter fra Cloudera, skal du deltage i et virtuelt møde for at se en livestreampræsentation. Der vil være tid til direkte spørgsmål og svar til sidst.
  • CDP-brugerside – Klik på linket for at lære om andre CDP-ressourcer, der er bygget til brugere, herunder yderligere videoer, selvstudier, blogs og begivenheder.

  1. mongoimport vælge felttype

  2. MongoDB Mange-til-Mange Association

  3. MongoDb via jndi

  4. Hvordan implementerer man en node.js med redis på kubernetes?