4

私はdatastax/spark-cassandra-connectorと1B以上の行で満たされたC *テーブル(datastax-enterprise dse 4.7.0)を使用してspark 1.2.1に取り組んでいます。タイム スタンプ パラメーターに対して範囲フィルター/WHERE クエリを実行する必要があります。

1B+ 行のテーブル全体をロードしてメモリをスパークさせずに (完了するまでに数時間かかる可能性があります)、実際にクエリを C* に戻す最善の方法は何ですか?

JoinWithCassandraTable で rdd を使用するか、プッシュダウンでデータ フレームを使用しますか? 他に何かありますか?

4

1 に答える 1

1

私の場合、 JoinWithCassandraTable が最適なソリューションになりました。この投稿から多くのことを学びました: http://www.datastax.com/dev/blog/zen-art-spark-maintenanceそして、リンクされた質問への回答を投稿します: Spark JoinWithCassandraTable on TimeStamp partition key STUCK

将来のクエリのために、正しい方法で C* テーブルを構築することがすべてです (適切なパーティション キーを選択することが非常に重要です)。

于 2015-10-30T00:58:30.093 に答える