Cassandraのパーティション キーでデータを適切に整理しています。このデータをSparkで取得し、同じパーティションを保持したいと考えています。
私の目標は、非常に大きなシャッフルを避けることです。
PS:Cassandra 2.1とSpark 1.5を使用しています
Cassandraのパーティション キーでデータを適切に整理しています。このデータをSparkで取得し、同じパーティションを保持したいと考えています。
私の目標は、非常に大きなシャッフルを避けることです。
PS:Cassandra 2.1とSpark 1.5を使用しています
Spark Cassandra コネクタは、C* トークン範囲を Spark パーティションに読み取ります。これは、特定の Cassandra パーティション キーのすべての値が同じ Spark パーティションにあることを意味します。
https://academy.datastax.com/demos/how-spark-cassandra-connector-reads-data