私はdatastax/spark-cassandra-connectorと1B以上の行で満たされたC *テーブル(datastax-enterprise dse 4.7.0)を使用してspark 1.2.1に取り組んでいます。タイム スタンプ パラメーターに対して範囲フィルター/WHERE クエリを実行する必要があります。
1B+ 行のテーブル全体をロードしてメモリをスパークさせずに (完了するまでに数時間かかる可能性があります)、実際にクエリを C* に戻す最善の方法は何ですか?
JoinWithCassandraTable で rdd を使用するか、プッシュダウンでデータ フレームを使用しますか? 他に何かありますか?