Hvis du ønsker at ændre (slette poster) den faktiske datakilde, dvs. tabeller i postgres, ville Spark ikke være en god måde. Du kan bruge jdbc-klienten direkte til at opnå det samme.
Hvis du alligevel ønsker at gøre dette (på distribueret måde baseret på nogle spor, som du beregner som en del af dataframes); du kan få den samme jdbc-klientkode skrevet i korrespondance med en dataramme, der har logik/trigger-info til sletning af poster, og som kan udføres på flere arbejdere parallelt.