sql >> Database teknologi >  >> NoSQL >> HBase

Hvad er det næste for Impala efter udgivelse 1.1

I december 2012, mens Cloudera Impala stadig var i sin betafase, leverede vi en køreplan for planlagt funktionalitet i produktionsudgivelsen. I samme ånd med at holde Impala-brugere, kunder og entusiaster velinformerede giver dette indlæg en opdateret køreplan for kommende udgivelser senere på året og i begyndelsen af ​​2014.

Men først, en tak:Siden den første beta-udgivelse har vi modtaget en enorm mængde feedback og validering om Impala - rigelige i dets kvalitet såvel som kvantitet. Mindst én person i cirka 4.500 unikke organisationer rundt om i verden har downloadet Impala binær til dato. Og selv efter kun et par måneders GA har vi set Cloudera Enterprise-kunder fra flere brancher implementere Impala 1.x i forretningskritiske miljøer med support via et Cloudera RTQ (Real-Time Query)-abonnement – ​​inklusive førende organisationer inden for forsikring, bank, detailhandel, sundhedsvæsen, spil, regering, telekommunikation og reklame.

Baseret på reaktionen fra andre leverandører i datahåndteringsområdet er der desuden kun få iagttagere, der vil bestride ideen om, at Impala har lavet interaktive SQL-forespørgsler med lav latens til Hadoop til et lige så vigtigt kundekrav som de batch-orienterede SQL-forespørgsler med høj latens. aktiveret af Apache Hive. Det er en fantastisk udvikling for Hadoop-brugere overalt!

Hvad blev leveret i Impala 1.0/1.1

Lad os begynde med et rapportkort på den tidligere offentliggjorte Impala 1.0/1.1 køreplan. Her er funktionslisten, grupperet efter leveringsstatus:

Leveret:

  • Understøttelse af parketformat, Apache Avro-filformat og LZO-komprimerede tekstfiler
  • Understøttelse af de samme 64-bit OS-platforme som understøttet for CDH
  • JDBC-driver
  • DDL-understøttelse
  • Hurtigere, større, mere hukommelseseffektive joinforbindelser
  • Hurtigere, større, mere hukommelseseffektive sammenlægninger
  • Flere SQL-ydeevneoptimeringer

Udskudt baseret på kundefeedback:

  • Straggler-håndtering
  • Automatisk opdatering af metadata

Ydermere, takket være tilføjelsen af ​​Apache Sentry-modulet (inkubering), giver Impala 1.1 og nyere nu også granulær, rollebaseret godkendelse, hvilket sikrer, at de rigtige brugere og applikationer har adgang til de rigtige data. (Med det nylige bidrag fra Sentry til Apache Incubator og HiveServer2 til Hive af Cloudera, har Hive 0.11 og senere også denne funktionalitet.)

Der blev gjort meget arbejde, men der er stadig masser at gøre. Nu, videre til Impala 2.0-bølgen.

Nærtidskøreplan

Følgende nye Impala-funktionalitet vil blive frigivet trinvist på tværs af fremtidige udgivelser på kort sigt, startende med Impala 1.2 i slutningen af ​​2013 og slutter med Impala 2.0 i den første tredjedel af 2014. Derudover vil du se flere præstationsforbedringer og SQL-funktionalitetsforbedringer i hver udgivelse – med det mål at udvide Impalas præstationsforspring i forhold til de alternative SQL-on-Hadoop-tilgange fra ældre relationsdatabaseleverandører såvel som Hadoop-distroleverandører.

Bemærk venligst, som det altid er tilfældet med køreplaner, at tidslinjer og funktioner altid kan ændres. Det, du ser nedenfor, fanger dog vores nuværende rekordplan.

Impala 1.2

  • UDF'er og udvidelsesmuligheder – gør det muligt for brugere at tilføje deres egen brugerdefinerede funktionalitet; Impala vil understøtte eksisterende Hive Java UDF'er samt højtydende native UDF'er og UDAF'er
  • Automatisk opdatering af metadata – gør det muligt for nye tabeller og data at være sømløst tilgængelige for Impala-forespørgsler, efterhånden som de tilføjes uden at skulle foretage en manuel opdatering på hver Impala-knude
  • In-memory HDFS caching – giver adgang til hyppigt tilgåede Hadoop-data ved in-memory-hastigheder
  • Omkostningsbaseret optimering af deltagelsesordre – frigør brugeren fra at skulle gætte den korrekte deltagelsesordre
  • Forhåndsvisning af YARN-integreret ressourcemanager – tillader prioritering af arbejdsbelastninger med en finere detaljeret end den serviceniveauisolering, der i øjeblikket leveres i Cloudera Manager

Impala 2.0

Listen nedenfor fanger kun de større, hyppigst efterspurgte funktioner; det er på ingen måde komplet.

  • SQL 2003-kompatible analytiske vinduesfunktioner (aggregering OVER PARTITION) – for at give mere avancerede SQL-analysefunktioner
  • Yderligere godkendelsesmekanismer – herunder muligheden for at angive brugernavn/adgangskoder ud over den allerede understøttede Kerberos-godkendelse
  • UDTF'er (brugerdefinerede tabelfunktioner) – for mere avancerede brugerfunktioner og udvidelsesmuligheder
  • Intra-node paralleliserede aggregeringer og sammenføjninger – for at give endnu hurtigere sammenføjninger og sammenlægninger oven i Impalas præstationsforbedringer
  • Indlejrede data – muliggør forespørgsler om komplekse indlejrede strukturer, herunder kort, strukturer og arrays
  • Forbedret, produktionsklar, YARN-integreret ressourcemanager
  • Forbedringer af parket – fortsatte præstationsforbedringer inklusive indekssider
  • Yderligere datatyper – herunder dato- og decimaltyper
  • ORDER BY uden LIMIT-klausuler

Beyond Impala 2.0

Følgende liste over funktioner er dem, som vi i øjeblikket forventer vil være til stede i 2.1 eller en udgivelse snart derefter:

  • Yderligere analytisk SQL-funktionalitet – ROLLUP, CUBE og GROUPING SET
  • Apache HBase CRUD – tillader brug af Impala til indsættelser og opdateringer i HBase
  • Eksterne joinforbindelser ved hjælp af disk – gør det muligt for joins mellem tabeller at overføre til disk for joins, der kræver jointabeller, der er større end den samlede hukommelsesstørrelse
  • Underforespørgsler i WHERE-sætninger

Efterhånden som vi lærer mere om kundernes og partnernes krav, udvides denne liste.

Konklusion

Som du kan se, har Impala udviklet sig betydeligt siden dens beta-udgivelse, og den vil fortsætte med at udvikle sig, efterhånden som vi indsamler mere feedback fra brugere, kunder og partnere.

I sidste ende mener vi, at Impala allerede har aktiveret vores overordnede mål om at give brugere mulighed for at gemme alle deres data i oprindelige Hadoop-filformater og samtidig køre al batch, maskinlæring, interaktiv SQL/BI, matematik, søgning og andre arbejdsbelastninger på disse data. på plads. Herfra er det bare et spørgsmål om at fortsætte med at bygge videre på det meget solide fundament med rigere funktionalitet og forbedret ydeevne.

Justin Erickson er direktør for produktledelse hos Cloudera.


  1. Online Apache HBase Backups med CopyTable

  2. Hvorfor har Mongoose både skemaer og modeller?

  3. Forårsaget af:java.lang.IllegalArgumentException:CONTAINING (1):[IsContaining, Containing, Contains]understøttes ikke for redis-forespørgselsafledning - Redis

  4. MongoDB logger alle forespørgsler