mysql - C* 側のフィルター - フィルター/範囲クエリを Spark から C* にプッシュダウンします。

Question

私はdatastax/spark-cassandra-connectorと1B以上の行で満たされたC *テーブル（datastax-enterprise dse 4.7.0）を使用してspark 1.2.1に取り組んでいます。タイムスタンプパラメーターに対して範囲フィルター/WHERE クエリを実行する必要があります。

1B+ 行のテーブル全体をロードしてメモリをスパークさせずに (完了するまでに数時間かかる可能性があります)、実際にクエリを C* に戻す最善の方法は何ですか?

JoinWithCassandraTable で rdd を使用するか、プッシュダウンでデータフレームを使用しますか? 他に何かありますか？

score 1 · Accepted Answer

私の場合、 JoinWithCassandraTable が最適なソリューションになりました。この投稿から多くのことを学びました: http://www.datastax.com/dev/blog/zen-art-spark-maintenanceそして、リンクされた質問への回答を投稿します: Spark JoinWithCassandraTable on TimeStamp partition key STUCK

将来のクエリのために、正しい方法で C* テーブルを構築することがすべてです (適切なパーティションキーを選択することが非常に重要です)。

mysql - C* 側のフィルター - フィルター/範囲クエリを Spark から C* にプッシュ ダウンします。

1 に答える 1

Related

Reference

mysql - C* 側のフィルター - フィルター/範囲クエリを Spark から C* にプッシュダウンします。