3

Cassandra をバックエンド ストアとして使用して、データ サービス レイヤーを構築しようとしています。私は Cassandra を初めて使用し、cassandra にどのクライアントを使用すればよいかわかりません - thrift または cql 3? Cassandra からデータを大量に読み書きする Amazon Elastic MapReduce (EMR) を使用する多くの mapreduce ジョブがあります。Cassandra に数十億の行がある場合、合計データ量は 100 TB を超えます。mapreduce ジョブは、高い qps (>1000 qps) で読み取りまたは書き込みが重くなる可能性があります。要件は次のとおりです。

  • クライアント コードのシンプルさ。thrift には、sstableloader ( http://www.datastax.com/dev/blog/bulk-loading ) を使用して大量のデータをロードするための Hadoop との統合が組み込まれているようです。
  • 実行時に新しい列を定義する機能。アプリケーションの要件によっては、さらに列を追加する必要がある場合があります。cql3 では、実行時に列を動的に定義できないようです。
  • 一括読み取り/書き込みのパフォーマンス。どのクライアントが優れているかはわかりません。ただし、thrift client は大量のデータに対してより優れたパフォーマンスを発揮すると主張する次の投稿を見つけました: http://jira.pentaho.com/browse/PDI-7610?page=com.atlassian.jira.plugin.system.issuetabpanels:all-タブパネル

この質問に答える信頼できる情報源は見つかりませんでした。これはほとんどの人にとって共通の問題であり、コミュニティ全体に利益をもたらすと確信しているため、これを手伝っていただければ幸いです。

よろしくお願いします。

-プラテック

4

1 に答える 1