HDFS からデータを取得し、そのデータをフラット ファイルに変換して Cassandra にロードする Spark ジョブがあります。
Cassandra テーブルは基本的に 3 列ですが、最後の 2 つはマップ コレクションであるため、「複雑な」データ構造です。
現在、COPY コマンドを使用すると、約 3,000 行/秒の読み込みが行われますが、約 5,000 万件のレコードを読み込む必要があるため、非常に低速です。
CSV ファイルを sstables に変換できるようですが、マップ コレクションやリストを含む例が見当たりません。
Spark コネクタを cassandra に使用して、マップ コレクションとリストを含むデータをロードし、COPY コマンドだけよりも優れたパフォーマンスを得ることができますか?