私はこれに長い間取り組んできましたが、とても疲れています。SO コミュニティからの [明白な?] 洞察を期待しています。Cloudera CDH3、HBase .89、および Hadoop .20 を使用しています。
Thrift インターフェイスを使用して単一の HBase テーブルにデータを書き込む Python/Django アプリがあり、うまく機能します。ここで、それをいくつかの HBase テーブルにマップ/削減したいと考えています。
ここでの明白な答えは Dumbo または Apache PIG ですが、Pig では、HBaseStorage アダプターのサポートは私のバージョンではまだ利用できません (Pig はクラスと定義をロードできますが、「マップ」ステップでフリーズし、「 Input Splits"; Pig メーリング リストは、これが CDH3 Hadoop と互換性のない Pig 0.8 で修正されていることを示唆しているため、すべてのエッジ バージョンを使用する必要があります [私が思う])。Dumbo に HBaseStorage をデータ シンクとして使用させる方法に関する情報が見つかりません。
それが Python、Ruby、Scala、Clojure、Jython、JRuby、さらには PHP であるかどうかは気にしません。Java を書きたくないだけです(多くの理由から、そのほとんどは毎回感じる沈没感に関係しています) Int() を IntWritable() などに変換する必要があります)。
代替言語で HBase Map/Reduce ジョブを作成するために (過去 4 週間) 見つけることができる最後のソリューションと例を文字通りすべて試しましたが、すべてが古くなっているか不完全なようです。スタック オーバーフロー、自分のデバイスから私を救ってください!