sql >> Database teknologi > >> RDS >> PostgreSQL

Pyspark:Fjern UTF null-tegn fra pysparks dataramme

Ah vent - jeg tror jeg har det. Hvis jeg gør sådan noget, ser det ud til at virke:

null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))

Og så tilknytning til alle strengkolonner:

string_columns = ['d','e']
new_df = df.select(
  *(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
    c in df.columns)
  )

Postgresql -- oprydning af HTML-tags i midten af strengen Kan ikke importere .csv til Cloud SQL fra konsollen