sql >> Database teknologi >  >> RDS >> Mysql

Spark JoinWithCassandraTable på TimeStamp-partitionsnøglen STIGT

Ved at bruge:

sc.parallelize(startDate to endDate)

Med startData og endDate as Longs genereret fra Datoer af formatet:

("yyyy-MM-dd HH:mm:ss")

Jeg lavede gnist til at bygge et enormt array (100.000+ objekter) til at forbinde med C*-tabellen, og det satte sig slet ikke fast - C* arbejdede hårdt for at få sammenføjningen til at ske og returnere dataene.

Til sidst ændrede jeg mit område til:

case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")

Og det er ok nu.




  1. Sådan administreres MySQL - til Oracle DBA'er

  2. virtualenv, der kan finde flyttede biblioteker (som mysqlclient lib for MySQLdb)

  3. Hvordan får man den numeriske del fra en streng ved hjælp af T-SQL?

  4. Hvordan slipper jeg SQL-standardbegrænsning uden at kende navnet?