sql >> Database teknologi >  >> RDS >> PostgreSQL

SparkSQL PostgresQL Dataframe-partitioner

Grundlæggende bruges den nedre og øvre grænse og antallet af partitioner til at beregne stigningen eller opdelingen for hver parallel opgave.

Lad os sige, at tabellen har partitionskolonnen "år" og har data fra 2006 til 2016.

Hvis du definerer antallet af partitioner som 10, med nedre grænse 2006 og højere grænse 2016, vil du have hver opgave til at hente data for sit eget år - det ideelle tilfælde.

Selvom du fejlagtigt angiver den nedre og/eller øvre grænse, f.eks. sæt lavere =0 og øvre =2016, vil der være en skævhed i dataoverførslen, men du vil ikke "tabe" eller undlade at hente nogen data, fordi:

Den første opgave vil hente data for år <0.

Den anden opgave vil hente data for år mellem 0 og 2016/10.

Den tredje opgave vil hente data for året mellem 2016/10 og 2*2016/10.

...

Og den sidste opgave vil have en hvor tilstand med år->2016.

T.



  1. Hvordan man beregner procent med en SQL-sætning

  2. Oracle sql MERGE INTO med en enkelt where-klausul

  3. Sådan opsætter du OTA i R12 og 11i

  4. MySQL kolonnenavne og aliaser