Spark JDBC API synes at gaffel til at indlæse alle data fra MySQL-tabellen til hukommelsen uden. Så når du prøver at indlæse en stor tabel, hvad du skal gøre, er at bruge Spark API-klonedata til HDFS først (JSON skal bruges til at beholde skemastrukturen), som denne:
spark.read.jdbc(jdbcUrl, tableName, prop)
.write()
.json("/fileName.json");
Så kan du arbejde på HDFS i stedet for normalt.
spark.read().json("/fileName.json")
.createOrReplaceTempView(tableName);