cassandra - Apache Spark で Cassandra パーティションデータを取得する

Question

Cassandraのパーティションキーでデータを適切に整理しています。このデータをSparkで取得し、同じパーティションを保持したいと考えています。

私の目標は、非常に大きなシャッフルを避けることです。

PS：Cassandra 2.1とSpark 1.5を使用しています

score 1 · Accepted Answer

Spark Cassandra コネクタは、C* トークン範囲を Spark パーティションに読み取ります。これは、特定の Cassandra パーティションキーのすべての値が同じ Spark パーティションにあることを意味します。

cassandra - Apache Spark で Cassandra パーティション データを取得する