sql >> Database teknologi >  >> RDS >> PostgreSQL

Kan ikke oprette forbindelse til postgres ved hjælp af jdbc i pyspark shell

Måske vil det være nyttigt.

I mit miljø indeholder SPARK_CLASSPATH stien til postgresql-stikket

from pyspark import SparkContext, SparkConf
from pyspark.sql import DataFrameReader, SQLContext
import os

sparkClassPath = os.getenv('SPARK_CLASSPATH', '/path/to/connector/postgresql-42.1.4.jar')

# Populate configuration
conf = SparkConf()
conf.setAppName('application')
conf.set('spark.jars', 'file:%s' % sparkClassPath)
conf.set('spark.executor.extraClassPath', sparkClassPath)
conf.set('spark.driver.extraClassPath', sparkClassPath)
# Uncomment line below and modify ip address if you need to use cluster on different IP address
#conf.set('spark.master', 'spark://127.0.0.1:7077')

sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

url = 'postgresql://127.0.0.1:5432/postgresql'
properties = {'user':'username', 'password':'password'}

df = DataFrameReader(sqlContext).jdbc(url='jdbc:%s' % url, table='tablename', properties=properties)

df.printSchema()
df.show()

Dette stykke kode gør det muligt at bruge pyspark, hvor du har brug for det. For eksempel har jeg brugt det i Django-projektet.



  1. Fejlfinding af Microsoft SQL Server-fejl 18456

  2. Rettelser til SQL Server 2012 &2014 Online Index Rebuild Issue

  3. Sådan håndteres Play Framework 2-databaseudviklinger i produktionen

  4. psql - gem resultater af kommando til en fil