sql >> Database teknologi >  >> RDS >> Database

Hvad er Greenplum Database? Introduktion til Big Data-databasen

Greenplum Database er en massivt parallel processing (MPP) SQL-database, der er bygget og baseret på PostgreSQL. Det kan skaleres til en dataarbejdsbelastning på flere petabyte niveau uden et enkelt problem, og det giver adgang til en klynge af kraftfulde servere, der vil arbejde sammen inden for en enkelt SQL-grænseflade, hvor du kan se alle data. I dette blogindlæg forklarer vi, hvad Greenplum er, og nedbryder Greenplum-arkitekturen, fordele, store use cases og hvordan man kommer i gang.

Hvad er Greenplum helt præcist?

Greenplum Database er en open source, hardware-agnostisk MPP-database til analyse, baseret på PostgreSQL og udviklet af Pivotal, som senere blev erhvervet af VMware. Dets arkitektur er specielt designet til at håndtere store datavarehuse og business intelligence-arbejdsbelastninger ved at give dig muligheden for at sprede dine data ud over en lang række servere.

Denne funktionsfyldte database giver kraftfulde og hurtige analyser af data, der skaleres op til petabyte-volumener.

Et overblik – TLDR

The Greenplum Architecture

Greenplum bruger et MPP-databasedesign, der kan hjælpe dig med at udvikle en skalerbar, højtydende implementering. Læs nu

Greenplum Fordele

Høj ydeevne, forespørgselsoptimering, open source og polymorf datalagring er de største fordele ved Greenplum. Læs nu

Større anvendelsestilfælde

Se, hvorfor Greenplum er den bedste database til analyse, maskinlæring og AI-brug. Læs nu

The Greenplum Architecture

For at få en god forståelse af Greenplum-arkitekturen, lad os først se på, hvad en MPP-database er.

Hvad er en MPP-database?

Når du håndterer store mængder komplekse data eller big data, er der stor sandsynlighed for, at din hovedmaskine begynder at blive knust af alle de data, den skal behandle for at kunne producere dine analyser resultater. For at opfylde dette behov for hurtigere behandling og muliggøre hurtigere resultater, overvejer mange organisationer at indføre en MPP-database.

MPP-systemet udnytter en delt-intet-arkitektur til at håndtere flere operationer parallelt. Den bruger flere forskellige behandlingsenheder, som arbejder uafhængigt ved hjælp af deres egen dedikerede hukommelse og ressourcer, så arbejdsbyrden deles på tværs af flere enheder i stedet for kun én. Et MPP-system har typisk en lederknude og en eller mange beregningsknuder. Ledernoden, kaldet 'master' i Greenplum, fortæller alle de andre knudepunkter, kaldet segmenter i Greenplum, hvad de skal gøre, og sammenlægger deres svar for at skabe det endelige svar.

MPP-databaser skalerer vandret ved at tilføje flere computerressourcer (noder) i stedet for at skulle bekymre sig om at opgradere til flere og dyrere individuelle servere (skalering lodret).

Greenplum Architectural Design

Baseret på PostgreSQL-arkitekturen udnytter Greenplum i det væsentlige flere PostgreSQL-databaseforekomster ad gangen i en enkelt Greenplum-klynge. PostgreSQL-brugere kan hurtigt sætte sig ind i denne databasetype, da mange af funktionerne, konfigurationerne og funktionaliteten er de samme i Greenplum og inkluderer funktioner designet til at optimere, hvordan PostgreSQL fungerer til Business Intelligence (BI) opgaver og arbejdsbelastninger.

Greenplum introducerede også mange funktioner, som ikke er tilgængelige i PostgreSQL, såsom parallel dataindlæsning, ressourcestyring, lagringsforbedringer og avanceret forespørgselsoptimering, hvilket gør det til et attraktivt tilbud, når du sammenligner to.

På samme måde som PostgreSQL udnytter Greenplum én masterserver eller vært, som er indgangspunktet til databasen, der accepterer forbindelser og SQL-forespørgsler. Men hvor PostgreSQL udnytter standby-noder til geografisk at distribuere deres implementering, bruger Greenplum segmentværter, som gemmer og behandler dataene. Greenplum-segmenter er uafhængige og hver lagrer en del af dataene, selvom de håndterer størstedelen af ​​forespørgselsbehandlingen. Du kan udnytte så få som to segment-værter og skalere til en ubegrænset kapacitet. Hvis du har aktiveret spejling, skal du øge dine segmentværter i trin på mindst to.

Så hvordan er det hele koordineret? Greenplum interconnect er netværkslaget i arkitekturen og styrer kommunikationen mellem Greenplum-segmenterne og hovedværtsnetværkets infrastruktur.

Greenplum Fordele

Her er nogle af de vigtigste Greenplum-fordele, der kan hjælpe dig med at forbedre din databaseydeevne:

  • Høj ydeevne

    Greenplum har en unikt designet datapipeline, der effektivt kan streame data fra disken til CPU'en uden at være afhængig af, at dataene passer ind i RAM-hukommelsen, som forklaret i deres Greenplum Next Generation Big Dataplatform:Top 5 grunde artikel. Dette giver Greenplum-implementeringer et enormt ydelsesboost i forhold til in-memory-systemer, der har brug for nok hukommelse til at lagre deres data, eller ikke-RDBMS-baserede systemer, der er in-memory-behandlingsmotorer, der allokerer RAM for hver samtidig forespørgsel. Greenplums høje ydeevne eliminerer den udfordring, som de fleste RDBMS har ved at skalere til små dataniveauer, da de er i stand til at skalere lineært for effektivt at behandle data.

  • Forespørgselsoptimering

    Greenplum har en omkostningsbaseret forespørgselsoptimering til storstilede big data-arbejdsbelastninger. Ved at udnytte ydeevnen, som vi dækkede ovenfor, skalerer Greenplum interaktive analyser og batch-tilstande til petabyte-skala uden at forringe din forespørgselsydeevne. Dette giver Greenplum mulighed for at fordele belastningen mellem deres forskellige segmenter og bruge alle systemets ressourcer parallelt til at behandle en forespørgsel.

    Med OLTP (Online Transactional Processing) arbejdsbelastningsforbedringer i Greenplum 6 er ydeevnen af ​​enkeltforespørgsler desuden forbedret med over 3,5c i forhold til Greenplum 5. Med denne opdatering eliminerede Greenplum mange af de lås konkurrence, så master-CPU-forbruget kan overstige 90 %, hvilket forbedrer forespørgslens ydeevne ved at forbedre hardware-ydeevnen for masterknuden.

  • Open Source

    Greenplum-databasen er et open source-data warehouse-projekt baseret på PostgreSQL's open source-kerne, der giver brugerne mulighed for at drage fordel af årtiers ekspertudvikling bag PostgreSQL sammen med den målrettede tilpasning af Greenplum til big data-applikationer. Greenplum kan køre på enhver Linux-server, uanset om den er hostet i skyen eller on-premise, og kan køre i ethvert miljø.

    Mens Greenplum vedligeholdes af et kerneteam af udviklere med commit-rettigheder til hovedlageret, byder de ivrigt velkommen til nye bidragydere, som har erfaring med databasen for at være med til at forme Greenplums fremtid. Lær mere om at blive involveret gennem Greenplum GitHub-siden.

  • Polymorfisk datalagring

    Greenplums polymorfe datalagring giver dig mulighed for at kontrollere konfigurationen af ​​dit tabel- og partitionslager med frihed til at udføre og komprimere filer i det til enhver tid. Dette vil give dig mulighed for at designe dine tabeller baseret på den måde, hvorpå dine specifikke data tilgås og til gengæld have et række- eller kolonneorienteret lagerhierarki.

    Når du opretter en tabel i Greenplum, kan du styre orienteringen med muligheden for at vælge enten kolonneorienterede eller rækkeorienterede data. Kolonneorienteret er typisk bedre til hele scanninger, mens rækkeorienteret er bedre til små scanninger eller opslag.

Greenplum giver dig endda mulighed for at oprette domænespecifikke datatyper og funktioner. Ved at bruge semistrukturerede datatyper, som inkluderer XML, HStore og JSON, har du mulighed for at gemme og analysere både strukturerede og ustrukturerede data i en database.

Hvad er Greenplum Database? Introduktion til Big Data-databasenKlik for at tweete

Større anvendelsestilfælde

Greenplum tilbyder en kraftfuld kombination af massivt parallelle behandlingsdatabaser og avanceret dataanalyse, som gør det muligt at skabe en ramme for datavidenskabsfolk og arkitekter til at træffe forretningsbeslutninger baseret på data indsamlet af kunstig intelligens og maskinlæring. Lad os gennemgå de mest populære anvendelsesmuligheder for Greenplum:

Analyse

De avancerede analyser leveret af Greenplum bliver brugt på tværs af mange vertikaler, herunder finans, fremstilling, bilindustrien, regering, energi, uddannelse, detailhandel og så videre, for at adressere en bred vifte af problemer. Nogle af Greenplum Database-analysefunktionerne fremhævet af Pivotal inkluderer evnen til at analysere en lang række datatyper, udnytte eksisterende SQL-viden og træne flere modeller på kortere tid ved at bruge MPP-arkitekturen.

Derudover leverer Greenplum analyser i databasen, som giver dig mulighed for at køre analyser direkte i databasen i forhold til at eksportere og køre dine data i en ekstern analysemaskine. Som en database, der er skræddersyet til virksomhedens arbejdsbelastninger, giver dette den nødvendige evne til at udforske store datasæt sammen med den høje ydeevne, der opnås ved at parallelisere analyserne på tværs af dine tilgængelige segmentværter. Du kan også udnytte en lang række kraftanalyseværktøjer med Greenplum, herunder MADlib, R statistisk sprog, SAS og Predictive Modeling Markup Language (PMML).

For eksempel bruger et internetmarkedsføringsfirma i en milliard dollarskala Greenplum avanceret analyse til at udføre målgruppeprofilering for at forstå, hvem deres publikum er, hvad de køber, hvilke netværk og enheder de bruger, og hvor de er geografisk placeret, så de bedre kan forstå og betjene deres marked.

Machine Learning

Greenplum er en fremragende database til maskinlæring – studiet af computeralgoritmer, der forbedres automatisk gennem erfaring. Apache MADlib er et open source, SQL-baseret maskinlæringsbibliotek, der kører i databasen på Greenplum såvel som PostgreSQL. Denne kombination hjælper dig med at forbedre paralleliteten, skalerbarheden og den forudsigelige nøjagtighed af din Greenplum-maskinlæringsimplementering. Datatransformation og funktionsteknologi er også tilgængelige via MADlib til maskinlæring, inklusive beskrivende og inferentielle statistikker, pivoting, sessionsisering og kodning af kategoriske variabler.

F.eks. udnytter et offentligt firma, der fastholder svigindtægter, Greenplums maskinlæringsfunktioner sammen med GemFire ​​til at udføre bedrageri i stor skala for at forhindre identitetstyveri, opdage og tilbageholde 5 mia. USD årligt og behandle 8 millioner tilfælde om dagen.

AI

Kunstig intelligens (AI), mens den ligner maskinlæring, refererer til den bredere idé, hvor maskiner kan udføre opgaver smart. Greenplum er et fantastisk databasevalg til applikationer, der ønsker at efterligne menneskelige evner gennem smarte maskiner. Med Greenplums evne til at indtage store mængder data ved høje hastigheder gør det denne database til et kraftfuldt værktøj til smarte applikationer, der skal interagere intelligent baseret på et ubegrænset antal unikke scenarier.

F.eks. bruger et teleselskab Greenplum database AI-kapaciteter til deres IoT operationelle rapporteringssystem smarte sensorer til at analysere og udføre hændelser, der bruges til vedligeholdelse, sikkerhed og driftseffektivitet.

Så hvem bruger Greenplum i dag? Greenplum-kunder omfatter American Express, Walmart, Asurian, Bank of America og mange flere på tværs af bank-, professionelle-, medier-, forsikrings-, sundheds-, bil- og detailmarkederne.

Sådan kommer du i gang

Som nævnt i hele dette indlæg, er Greenplum en open source-database, så fællesskabsversionen er helt gratis at downloade og bruge. Greenplums lille, men aktive samfund byder nye bidragydere velkommen, accepterer feedback og samarbejder med Greenplum-evangelister for at promovere big data-databasen.

Mange organisationer, der udnytter Greenplum, leder efter yderligere support og værktøjer til at hjælpe deres DBA'er med at administrere deres implementeringer. Her er de to forskellige databasestyrings- og supportmuligheder, der er tilgængelige for Greenplum:

ScaleGrid til Greenplum®-databasen – Open Source-version

ScaleGrid for Greenplum® Database er en fuldt administreret løsning til open source-versionen af ​​Greenplum, der lanceres i maj 2020. Multi-cloud-platformen giver dig mulighed for at implementere og administrere på AWS, Azure eller Google Cloud (kommer snart) cloud-platforme eller VMware on-premise-miljøer. ScaleGrid giver Greenplum-brugere de avancerede administrationsværktøjer, de har brug for at implementere med et enkelt klik, automatisere sikkerhedskopier og skalere dynamisk med evnen til at opretholde fulde superbrugeradministratorrettigheder over deres open source-implementeringer.

Pivotal Greenplum – kommerciel version

Pivotal Greenplum, nu er VMware Tanzu skaberen bag open source-databasen, der tilbyder en kommerciel version af databasen til at hjælpe dig med at implementere og administrere Greenplum i skyen og på stedet. Pivotal Greenplum tilbyder mange fordele, såsom evnen til at maksimere oppetiden, beskytte dataintegriteten og håndtere streamingdata og clouddata med lethed.

Både ScaleGrid og Pivotal Greenplum tilbyder avancerede supportpakker til at hjælpe dine DBA'er med at optimere deres Greenplum-implementeringer.


  1. Sådan fungerer SCHEMA_NAME() i SQL Server

  2. Læserløsninger til Special Islands-udfordringen

  3. Brug af Easysoft ODBC-drivere med Informatica PowerCenter

  4. Kan ikke bruge tabellen med navnet bruger i postgresql hibernate