Spark/Spark Cassandra Connector は初めてです。チームで初めてスパークを試しており、スパーク cassandra コネクタを使用して cassandra データベースに接続しています。
データベースの重いテーブルを使用するクエリを作成しましたが、テーブルへのクエリがすべてのレコードをフェッチするまで Spark タスクが開始されないことがわかりました。
データベースからすべてのレコードを取得するだけで 3 時間以上かかります。
使用するDBからデータを取得します。
CassandraJavaUtil.javaFunctions(sparkContextManager.getJavaSparkContext(SOURCE).sc())
.cassandraTable(keyspaceName, tableName);
すべてのデータのダウンロードが完了していなくても、spark に作業を開始するように指示する方法はありますか?
fetch により多くのスレッドを使用するように spark-cassandra-connector に指示するオプションはありますか?
ありがとう、ココ。