0

HDFS からデータを取得し、そのデータをフラット ファイルに変換して Cassandra にロードする Spark ジョブがあります。

Cassandra テーブルは基本的に 3 列ですが、最後の 2 つはマップ コレクションであるため、「複雑な」データ構造です。

現在、COPY コマンドを使用すると、約 3,000 行/秒の読み込みが行われますが、約 5,000 万件のレコードを読み込む必要があるため、非常に低速です。

CSV ファイルを sstables に変換できるようですが、マップ コレクションやリストを含む例が見当たりません。

Spark コネクタを cassandra に使用して、マップ コレクションとリストを含むデータをロードし、COPY コマンドだけよりも優れたパフォーマンスを得ることができますか?

4

1 に答える 1

1

はい、Spark Cassandra コネクタは、既に HDFS にあるファイルに対してはるかに高速です。spark を使用すると、分散してグラブして C* に書き込むことができます。

https://github.com/brianmhess/cassandra-loaderのような Java ベースのローダーを使用する Spark がなくても、速度が大幅に向上します。

于 2015-10-06T15:22:44.583 に答える