sql >> Database teknologi >  >> RDS >> PostgreSQL

Sådan replikeres PostgreSQL-data til eksterne websteder

I et travlt databasemiljø med større databaser er behovet for datareplikering i realtid en almindelig begivenhed. Applikationer har ofte brug for, at produktionsdataene replikeres i realtid til fjerntliggende steder til analyse og andre kritiske forretningsdriftsbehov.

DBA'er skal også sikre, at dataene replikeres kontinuerligt til de fjerntliggende steder for at opfylde forskellige krav. Disse krav er dog ikke altid at replikere hele databasen; der kan også være behov for kun at replikere en delmængde af dataene (såsom en tabel eller et sæt tabeller eller data fra flere tabeller ved hjælp af en SQL til analyse, rapportering osv.)

I denne blog vil vi fokusere på, hvordan man replikerer tabeller til eksterne databaser i realtid.

Hvad er replikering på tabelniveau?

Replikering på tabelniveau er mekanismen til at replikere data fra en specifik tabel eller et sæt tabeller fra en database (kilde) til en anden database (mål), der hostes eksternt i et distribueret miljø. Replikering på tabelniveau sikrer, at tabeldata distribueres kontinuerligt og forbliver ensartet på tværs af replikerede (mål)websteder.

Hvorfor bruge replikering på tabelniveau?

Replikering på tabelniveau er et væsentligt behov i større, komplekse, meget distribuerede miljøer. Efter min erfaring var der altid behov for at replikere et sæt tabeller fra en produktionsdatabase til et datavarehus til rapporteringsformål. Dataene skal replikeres løbende for at sikre, at rapporterne får de seneste data. I kritiske miljøer kan forældede data ikke tolereres, så de dataændringer, der sker i produktionen, skal replikeres øjeblikkeligt til målstedet. Dette kan være en reel udfordring for DBA's at skulle forudsige forskellige faktorer for at sikre en effektiv og smidig tabelreplikering.

Lad os se på nogle krav, som replikering på tabelniveau løser:

  • Rapporterne kan køre på en database i et andet miljø end produktion, såsom data warehousing
  • Et distribueret databasemiljø med distribuerede applikationer, der udtrækker data fra flere websteder. I tilfælde af distribuerede web- eller mobilapplikationer bør kopien af ​​de samme data være tilgængelig flere steder for at opfylde forskellige applikationsbehov, som replikering på tabelniveau kunne være en god løsning for
  • Lønapplikationer, der kræver, at data fra forskellige databaser placeret på forskellige geografisk distribuerede datacentre eller cloud-instanser er tilgængelige i en centraliseret database

Forskellige faktorer, der påvirker replikering på tabelniveau - Hvad skal man kigge efter

Som vi nævnte ovenfor, skal DBA'er tage højde for en række realtidskomponenter og faktorer for at designe og implementere et effektivt replikeringssystem på tabelniveau.

Tabelstruktur

Den type datatabel, der er imødekommende, har stor indflydelse på replikeringsydelsen. Hvis tabellen rummer en BYTEA-kolonne med større binære data, kan replikeringsydelsen blive ramt. Effekten af ​​replikering på netværk, CPU og disk skal vurderes omhyggeligt.

Datastørrelse

Hvis tabellen, der skal migreres, er for stor, vil den indledende datamigrering tage ressourcer og tid, DBA'er skal sikre, at produktionsdatabasen ikke påvirkes.

Infrastrukturressourcer

Infrastrukturen skal have tilstrækkelige ressourcer til at sikre, at der kan bygges et pålideligt og stabilt replikeringssystem. Hvilke infrastrukturkomponenter skal tages i betragtning?

CPU'er

Datareplikering er stærkt afhængig af CPU'er. Når du replikerer fra produktion, må CPU'er ikke blive opbrugt, hvilket kan påvirke produktionsydelsen.

Netværk

Det er afgørende for replikeringsydelsen. Netværksforsinkelse mellem kilde- og måldatabase(r) skal vurderes ved stresstest for at sikre, at der er nok båndbredde til, at replikeringen kan være hurtigere. Det samme netværk kan også blive brugt op af andre processer eller applikationer. Så kapacitetsplanlægning skal laves her.

Hukommelse

Der skal være tilstrækkelig hukommelse tilgængelig for at sikre, at nok data er cachelagret til hurtigere replikering.

Kildetabelopdateringer

Hvis dataændringerne på kildetabellen er tunge, skal replikeringssystemet have evnen til at synkronisere ændringerne til det eller de eksterne websteder så hurtigt som muligt. Replikering vil ende med at sende et stort antal synkroniseringsanmodninger til måldatabasen, hvilket kan være ressourcekrævende.

Infrastrukturtype (datacentre eller cloud) kan også påvirke replikeringsydelsen og udgøre udfordringer. Implementering af overvågning kan også være en udfordring. Hvis der er en forsinkelse, og visse data mangler på måldatabasen, kan det være svært at overvåge, og det kan ikke være synkront

Sådan implementeres tabelreplikering

Replikering på tabelniveau i PostgreSQL kan implementeres ved hjælp af en række eksterne værktøjer (kommercielle eller open source), som er tilgængelige på markedet eller ved at bruge specialbyggede datastrømme.

Lad os tage et kig på nogle af disse værktøjer, deres funktioner og muligheder...

Download Whitepaper Today PostgreSQL Management &Automation med ClusterControlFå flere oplysninger om, hvad du skal vide for at implementere, overvåge, administrere og skalere PostgreSQLDownload Whitepaper

Slony

Slony er et af de mest populære værktøjer, der bruges til asynkront at replikere specifikke individuelle tabel eller tabeller i realtid fra en PostgreSQL-database til en anden. Dette er et Perl-baseret værktøj, som udfører triggerbaseret replikering af dataændringer af en tabel (eller et sæt tabeller) fra en database på et sted til et andet. Det er ret pålideligt, og det har mange års udviklingshistorie. Selvom det er meget pålideligt, da det er et trigger-baseret værktøj, kan det blive komplekst at administrere replikeringsopsætningerne.

Lad os se på nogle af Slony's muligheder...

Fordele ved at bruge Slony

  • Understøtter master-til-slave- eller multiple-slavs-replikeringsmetodologi, som hjælper med at forbedre horisontal læseskalerbarhed. Med andre ord er slaver ikke skrivbare
  • Konfiguration af flere slaver til en enkelt master er muligt og understøtter også Cascading-replikeringsmetodologi
  • Understøtter switchover- og failover-mekanismer
  • Et stort antal tabeller kan replikeres i grupper parallelt
  • Vi kan replikere mellem forskellige større versioner af PostgreSQL-instanser, hvilket gør Slony til en fantastisk mulighed for databaseopgraderinger
  • Simpelt at installere

Ulemper ved at bruge Slony

  • Understøtter ikke DDL-replikering
  • Visse skemaændringer kan bryde replikeringen
  • Replikeringshændelser logges i databasen i Slony-specifikke logtabeller, som kan udgøre en vedligeholdelsesomkostning.
  • Hvis et stort antal tabeller med store datasæt skal replikeres, kan ydeevne og vedligeholdelse udgøre alvorlige udfordringer
  • Da er en triggerbaseret replikering, kan ydeevnen blive påvirket

Bucardo

Bucardo er et andet open source perl-baseret replikeringssystem til PostgreSQL, som understøtter asynkron replikering af specifikke tabeldata mellem to eller flere PostgreSQL-instanser. Det, der gør Bucardo anderledes end Slony, er, at den også understøtter multi-master replikering.

Lad os se på forskellige typer replikeringsmekanismer, som bucardo hjælper med at implementere...

  • Multi-master replikering:Tabeller kan replikeres i begge retninger mellem to eller flere PostgreSQL-instanser, og transaktionsdataene vil blive synkroniseret tovejs
  • Master-slave:Data fra tabeller i master vil blive replikeret til slave asynkront, og slave er tilgængelig for læseoperationer
  • Fuld kopitilstand (Master-slave):Bucardo -/repliker alle data fra masteren til slavenoden ved at slette alle data fra slaven

Fordele ved at bruge Bucardo

  • Simpelt at installere
  • Understøtter multi-master, master-slave og fuld kopi replikeringstilstande
  • Den kan bruges til at opgradere databaser
  • Replikering kan udføres mellem forskellige PostgreSQL-versioner

Ulemper ved at bruge Bucardo

  • Da er en trigger-baseret replikering, kan ydeevnen være en udfordring
  • Skemaændringer som DDL'er kan bryde replikeringen
  • Replikation af et stort antal tabeller kan medføre vedligeholdelsesomkostninger
  • Infrastrukturressourcerne skal optimeres til replikering med god effektivitet, ellers kan konsistensen ikke opnås.

Logisk PostgreSQL-replikering

Logisk replikering er en revolutionerende indbygget funktion i PostgreSQL, som hjælper med at replikere individuelle tabeller via WAL-poster. At være en WAL-baseret replikering (ligner Streaming Replication) skiller pg logical sig ud sammenlignet med andre tabelreplikeringsværktøjer. Replikering af data via WAL-registreringer er altid den mest pålidelige og effektive måde at replikere data på netværket. Næsten alle værktøjerne på markedet giver trigger-baseret replikering undtagen logisk replikering.

Fordele ved at bruge PostgreSQL logisk replikering

  • Den bedste mulighed, når du ønsker at replikere en enkelt tabel eller et sæt tabeller
  • Det er en god mulighed, hvis kravet er at migrere specifikke tabeller fra forskellige databaser til én enkelt database (såsom data warehousing eller rapporteringsdatabaser) til rapportering eller analytiske formål
  • Intet besvær med udløsere

Ulemper ved at bruge PostgreSQL logisk replikering

  • Fejlhåndtering af WAL-filer / WAL-arkivfiler kan udgøre udfordringer for logisk replikering
  • Vi kan ikke replikere tabeller uden primære eller unikke nøgler
  • DDL'er og TRUNCATE replikeres ikke
  • Replikeringsforsinkelse kan stige, hvis WAL'erne fjernes. Det betyder, at replikeringen og WAL-styringen skal komplementere hinanden for at sikre, at replikeringen ikke går i stykker
  • Store objekter kan ikke replikeres

Her er nogle flere ressourcer til at hjælpe dig med bedre at forstå PostgreSQL logisk replikering og forskellene mellem det og streaming replikering.

Udenlandske dataindpakninger

Selvom Foreign Data Wrappers faktisk ikke replikerer dataene, ville jeg fremhæve denne funktion ved PostgreSQL, fordi det kan hjælpe DBA'er med at opnå noget, der ligner replikering uden faktisk at replikere dataene. Dette betyder, at dataene ikke replikeres fra kilde til mål, og dataene kan tilgås af applikationer fra måldatabasen. Måldatabasen har kun en tabelstruktur med et link, der indeholder værts- og databasedetaljer for kildetabellen, og når applikationen forespørger måltabellen, trækkes dataene over fra kildedatabasen til måldatabasen svarende til Database Links. Hvis FDW'er kan hjælpe, så kan du helt undgå omkostningerne ved at replikere dataene over netværket. Mange gange kommer vi i en situation, hvor rapporter kan udføres på en ekstern måldatabase uden at have behov for, at dataene er fysisk til stede.

FDW'er er en god mulighed i følgende situationer -

  • Hvis du har små og statiske tabeller i kildedatabasen, så er det ikke rigtig værd at replikere dataene over
  • Kan være rigtig fordelagtig, hvis du har virkelig store tabeller i kildedatabasen, og du kører samlede forespørgsler på måldatabasen.

Fordele ved at bruge udenlandske dataindpakninger

  • Replikation af data kan helt undgås, hvilket kan spare tid og ressourcer
  • Simpel at implementere
  • Data, der trækkes over, er altid de seneste
  • Ingen vedligeholdelse over hovedet

Ulemper ved at bruge udenlandske dataindpakninger

  • Strukturelle ændringer på kildetabellen kan påvirke applikationsfunktionaliteten på måldatabasen
  • Stærkt afhængig af netværket og kan have betydelige netværksomkostninger afhængigt af typen af ​​rapporter, der køres
  • Ydeevneoverhead forventes, når forespørgslerne udføres flere gange, da hver gang forespørgslen udføres, skal dataene trækkes over netværket fra kildedatabasen og kan også udgøre ydeevneoverhead på kildedatabasen
  • Enhver belastning af kilden kan påvirke ydeevnen af ​​applikationer på måldatabasen

Konklusion

  • Replikation af tabeller kan tjene forskellige kritiske formål for virksomheden
  • Kan understøtte distribueret parallel forespørgsel i distribuerede miljøer
  • Implementering af synkron er næsten umulig
  • Infrastruktur skal være tilstrækkeligt kapacitet, hvilket medfører omkostninger
  • En fantastisk mulighed for at bygge en integreret centraliseret database til rapportering og analytiske formål

  1. Migrering af MySQL til PostgreSQL på AWS RDS, del 4

  2. Sådan fungerer SESSION_CONTEXT() i SQL Server

  3. Sådan får du data fra de sidste 7 dage fra den nuværende dato og klokkeslæt til de sidste 7 dage i sql-serveren

  4. Databasenavngivningskonventioner fra Microsoft?