sql >> Database teknologi >  >> RDS >> PostgreSQL

Brug af Postgresql JDBC-kilde med Apache Spark på EMR

Jeg tror ikke, du behøver at kopiere postgres jar i slaver, da driverprogrammet og klyngemanageren tager sig af alt. Jeg har oprettet en dataramme fra Postgres ekstern kilde på følgende måde:

Download postgres driver jar :

cd $HOME && wget https://jdbc.postgresql.org/download/postgresql-42.2.5.jar

Opret dataramme :

atrribute = {'url' : 'jdbc:postgresql://{host}:{port}/{db}?user={user}&password={password}' \
        .format(host=<host>, port=<port>, db=<db>, user=<user>, password=<password>),
                 'database' : <db>,
                 'dbtable' : <select * from table>}
 df=spark.read.format('jdbc').options(**attribute).load()

Send til spark job: Tilføj den downloadede jar til driverklassestien, mens du indsender sparkjobbet.

--properties spark.driver.extraClassPath=$HOME/postgresql-42.2.5.jar,spark.jars.packages=org.postgresql:postgresql:42.2.5 


  1. Oversete T-SQL-perler

  2. Hvordan får jeg min, median og max fra min forespørgsel i postgresql?

  3. Oracle High Availability-koncepter i PostgreSQL

  4. InnoDB:Kan ikke låse ./ibdata1 fejl:35