cassandra - Spark コネクタの読み込みと sstableloader のパフォーマンス

Question

HDFS からデータを取得し、そのデータをフラットファイルに変換して Cassandra にロードする Spark ジョブがあります。

Cassandra テーブルは基本的に 3 列ですが、最後の 2 つはマップコレクションであるため、「複雑な」データ構造です。

現在、COPY コマンドを使用すると、約 3,000 行/秒の読み込みが行われますが、約 5,000 万件のレコードを読み込む必要があるため、非常に低速です。

CSV ファイルを sstables に変換できるようですが、マップコレクションやリストを含む例が見当たりません。

Spark コネクタを cassandra に使用して、マップコレクションとリストを含むデータをロードし、COPY コマンドだけよりも優れたパフォーマンスを得ることができますか?

score 1 · Accepted Answer

はい、Spark Cassandra コネクタは、既に HDFS にあるファイルに対してはるかに高速です。spark を使用すると、分散してグラブして C* に書き込むことができます。

https://github.com/brianmhess/cassandra-loaderのような Java ベースのローダーを使用する Spark がなくても、速度が大幅に向上します。

1 に答える 1