1

私は Apache Cassandra (1.2) と Apache Map-Reduce を使用して一部のデータを処理しています。現時点では、 org.apache.cassandra.hadoop.cql3CqlPagingInputFormatから使用しています。このプロバイダーは、Thrift を使用してデータをプルします。Thrift はかなり遅いようです (3 ノード クラスターで 3 億レコード、読み取りに 8 時間以上かかります)。また、ネイティブ バイナリ プロトコルが存在するため、誰かがそれを使用しているのではないかと思います。

他の最適化と構成の微調整には興味がありません-それは別の問題です。

私の質問は

  1. Cassandra ネイティブ プロトコルを直接使用する map-reduce 入力フォーマッタの実装はありますか?

  2. そうでない場合、たとえば DataStax ドライバーを使用して、自分で作成するための最初のステップは何ですか?

4

1 に答える 1

1

Cassandra 2.0.7 には、CQL Hadoop クラスのネイティブ プロトコル アナログが含まれています。

org.apache.cassandra.hadoop.cql3.CqlInputFormat org.apache.cassandra.hadoop.cql3.CqlRecordReader org.apache.cassandra.hadoop.cql3.CqlConfigHelper

examples/hadoop_cql3_word_count の WordCount コードは、これらのクラスを使用するように更新されました。

これを紹介したJIRAはhttps://issues.apache.org/jira/browse/CASSANDRA-6311

于 2014-04-24T09:47:24.953 に答える