sql >> Database teknologi >  >> RDS >> PostgreSQL

Pyspark:Fjern UTF null-tegn fra pysparks dataramme

Ah vent - jeg tror jeg har det. Hvis jeg gør sådan noget, ser det ud til at virke:

null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))

Og så tilknytning til alle strengkolonner:

string_columns = ['d','e']
new_df = df.select(
  *(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
    c in df.columns)
  )


  1. MySQL Vælg flere værdier

  2. CakePHP 2.2 med PostgreSQL Mislykkedes ny rækkeindsættelse - Databasefejl:Udefineret tabel:7 FEJL:relation table_id_seq eksisterer ikke

  3. To skillende Ejendommeligheder

  4. ? LIKE (kolonne || '%)'