sql >> Database teknologi >  >> RDS >> Mysql

AWS EMR PySpark opret forbindelse til mysql

Hvis du vil køre ethvert Spark Job på Amazon EMR 3.x eller EMR 4.x, skal du gøre følgende:

1) Du kan nævne spark-defaults.conf egenskaber under bootstrapping, dvs. du kan ændre konfigurationen af ​​Driver Classpath og Executor Classpath ejendom og også maximizeResourceAllocation (Spørg for mere info i kommentarerne, hvis du har brug for det.) dokumenter

2) Du skal downloade alle de nødvendige jars, dvs. (mysql-connector.jar og mariadb-connector.jar) i dit tilfælde MariaDB og MySQL connector JDBC jars til alle klassestiplaceringerne som Spark, Yarn og Hadoop på alle noderne enten det er MASTER, CORE eller OPGAVE (Spark On Yarn Scenario dækker det meste) bootstrap scripts docs

3) Og hvis dit Spark Job kun kommunikerer fra Driver-node til din database, har du muligvis kun brug for det, brug --jars og vil ikke give dig undtagelse og fungerer fint.

4) Anbefaler dig også at prøve Master som garn-klynge i stedet for lokalt eller garn-klient

I dit tilfælde, hvis du bruger MariaDB eller MySQL, skal du enten kopiere dine krukker på $SPARK_HOME/lib , $HADOOP_HOME/lib osv. på hver eneste node i din klynge, og prøv det så.

Senere kan du bruge Bootstrap-handlinger for at kopiere dine krukker på alle noderne, mens klyngen oprettes.

Kommenter venligst nedenfor for mere information.




  1. Tjek, om e-mail allerede findes i databasen

  2. Sådan trækker du 30 dage fra den aktuelle dato ved hjælp af SQL Server

  3. Golang RESTful API-belastningstest forårsager for mange databaseforbindelser

  4. formatering af et datofelt i mysql