sql >> Database teknologi >  >> NoSQL >> HBase

Next Generation Data Warehousing hos Santander UK

Rettidig data er afgørende for virksomheder i Big Data-alderen:Dette blogindlæg skitserer, hvordan Santander UK bruger de nyeste Cloudera-teknologier og overlegne softwareudviklingsevner til at skabe den næste generation af data warehousing og streaming-analyse for at understøtte intelligens, der kan forbedre relationer med kunder og følg mantraet om 'vi vil hjælpe folk med at vokse og trives. '

Santander UKs big data-rejse startede for omkring fire år siden. De var tidlige brugere af ny datastreaming-teknologi som Apache Kafka og havde ambitioner om at revolutionere kundeoplevelsen med brugen af ​​realtidsdata og analyse i appen til mobilbrugere.

Siden da har Santander UK forbedret både fodaftryk og evne til at innovere med big data-teknologi og har udviklet sig hurtigt. Behovet for streaminganalyse i stor skala er steget og er blevet en realitet. I dag, hos Santander UK, suppleres Clouderas Big Data, Machine Learning og Analytics-platform med integreret højkvalitets og skalerbar Platform-as-a-Service (PaaS) begivenhedslevering gennem Apache Kafka.

En anden teknologikomponent, der er central for Santander UKs næste generations Data Warehouse, er brugen af ​​Apache Kudu til at muliggøre hurtige analyser på hurtige data. Når det kombineres med aspekter af Data Vault 2.0-designmetoden, letter det hurtig indtagelse fra hundredvis af Apache Kafka-datastrømme; både at aflaste arbejdsbyrden fra eksisterende ældre systemer og give mulighed for at stille "lige her, lige nu" spørgsmål vedrørende kundeadfærd og bankens aktuelle tilstand.

Hastighed til markedet

Hurtige datastrømme kan flyttes online med minimal indsats på grund af en innovativ ny platform hos Santander UK, som integrerer ældre systemer med en ny Data Vault via Apache Kafka. På grund af den rene struktur af de data, der integreres, er et nyt hændelsesstream-feed til at udfylde Apache Kudu Data Vault i vid udstrækning konfigurationsdrevet – der tilpasser datahændelser til Hub-, Satellit- og Link-strukturen i Data Vault 2.0-metoden. Dette gør det muligt for skemaet at reagere på ændringer i virksomheden eller ny forståelse af, hvordan dataene skal tilpasses.

Santander UK kan påvirke datatransformationer ved at skalere den elastiske hændelsesleveringsplatform, som er baseret på Scala Akka og Apache Kafka, hvilket muliggør hurtig og skalerbar databerigelse i realtid. Dette muliggør hurtigere, mere rettidige data, hurtigere beslutninger og højere hastighed til markedet for use cases på grund af den genanvendelige platform og arkitektur.

Datavidenskab og hurtig prototyping af dataprodukter

I sidste ende er der mange potentielle forbrugere af denne streaming datakilde; interessant indsigt er dog allerede blevet opnået gennem integrationen af ​​Cloudera Data Science Workbench til Data Vault. Disse giver en omfattende Data Science-oplevelse for det voksende Data Science-team og bruger også - på typisk Santander UK innovativ måde - potentialet til hurtigt at prototype ideer og skabe nye dataprodukter, før de løser tunge ingeniørmæssige og arkitektoniske udfordringer. Byg en hurtig prototype, og udvikle den så, hvis den skaber værdi, til et førsteklasses produkt.

Hurtig integration:Bidragsmodellen

I tråd med den innovation og smidighed, som Santander UK Data Innovation-teamet har gjort til virkelighed, skabte de ideen om bidragsmodellen. Fordi klyngen er multi-lejer med forskellige forretningsenheder, der indkøber, renser og udvikler nye datasæt; Hvis det anses for nyttigt for resten af ​​virksomheden, kan Data Vault-stillinktabeller bruges til at integrere disse generelt nyttige data til kernen af ​​Data Vault-skemaet. På denne måde kan teamet øge værdien af ​​dataprodukter gennem den hurtige generering af nye kombinationer af datasæt, med sporbar afstamning ved at bruge Cloudera Navigator til styring og sikkerhed ved at bruge Apache Sentry til adgangskontrol. Hvis forretningsenhedens data vurderes at være nyttige for andre, er de knyttet til kernen og deles i henhold til styringsprincipper.


Bidragsmodellen giver os mulighed for at udnytte rene datasæt, der er skabt uafhængigt af forskellige forretningsenheder og produktteams. Hvis disse data er værdifulde for resten af ​​virksomheden, har vi mulighed for at bringe dem ind i Data Vault som en førsteklasses borger gennem brug af linktabeller. Vi ønskede at kopiere Apache-fællesskabets tilgang til open source-software til datasystemer i vores organisation for at forbedre innovation gennem samarbejde.

    – Nicolette Bullivant – Head of Data Engineering, Santander UK

Multi-destination:Én stream til at styre dem alle

De rå hændelsesstrømme, der genereres fra ældre systemer, betragtes som kanoniske og kræves generelt af andre interessenter, der bruger klyngen. Santander UK Data Innovation Team har vedtaget princippet om at sikre, at disse begivenhedsstrømme er tilgængelige til brug ved forskellige anvendelsessager og teknologier; således kan en kanonisk begivenhedsstrøm omfordeles til forskellige destinationer; enten HDFS-filsystem, Apache HBase eller Apache Kudu. Dette hjælper med at skabe en enkelt version af sandheden for alle interessenter, samtidig med at man undgår modpres på ældre systemer.

Konklusion

Kort sagt, Santander UK innoverer direkte på Cloudera-stakken, og kobler streamingdata, avancerede softwareteknologiske principper og rammer og moderne datavarehusdesignprincipper for at generere realtidsindsigt for at forbedre kundeoplevelsen og kundernes økonomiske velvære. Denne innovation blev for nylig anerkendt som et tredjepartspanel af dommere, der blev kåret til Santander som en Data Impact Award-finalist.

Nicolette Bullivant er Head of Data Engineering hos Santander UK.
Rob Siwicki er Senior Solutions Architect for Clouderas Professional Services, EMEA.


  1. Hvordan opdaterer man redis efter opdatering af databasen?

  2. MongoDB forespørger optimering

  3. En guide til forespørgsler i Spring Data MongoDB

  4. Redis forbindelse til 127.0.0.1:6379 mislykkedes - tilslut ECONNREFUSED