私は Apache Cassandra (1.2) と Apache Map-Reduce を使用して一部のデータを処理しています。現時点では、 org.apache.cassandra.hadoop.cql3CqlPagingInputFormat
から使用しています。このプロバイダーは、Thrift を使用してデータをプルします。Thrift はかなり遅いようです (3 ノード クラスターで 3 億レコード、読み取りに 8 時間以上かかります)。また、ネイティブ バイナリ プロトコルが存在するため、誰かがそれを使用しているのではないかと思います。
他の最適化と構成の微調整には興味がありません-それは別の問題です。
私の質問は
Cassandra ネイティブ プロトコルを直接使用する map-reduce 入力フォーマッタの実装はありますか?
そうでない場合、たとえば DataStax ドライバーを使用して、自分で作成するための最初のステップは何ですか?