Scala (またはJava ) アプリケーションからHadoopクラスター上のHBaseにアクセスするための優れたソリューション (フレームワーク) を推奨してもらえますか?
今のところ、やけどの方向に進んでいます。入手したプロトタイプにより、scalding ライブラリをMavenと組み合わせ、scalding ジョブ JAR を「ライブラリ」コード パッケージから分離することができました。これにより、ジョブごとのオーバーヘッドを最小限に抑えながら、クラスター外からスケーティング ベースの Hadoop ジョブを実行できるようになりました (「ライブラリ」コードは、クラスターの「分散キャッシュ」が変更された場合にのみポストされます (これはほとんど必要ありません)。そのため、ジョブ コードを高速にロードできます)。 .
今、私は実際に HBase 自体をいじり始めており、scalding は良いことだと思いますが、HBase にとってそれほど「ネイティブ」ではありません。はい、 hbase-scalding のようなものがありますが、将来のアクションを計画するポイントがあるので、おそらく見逃した他の良い解決策について知りたいです。
期待されること:
- オーバーヘッドを開始するアプリケーション (ジョブ) は低くする必要があります。私はそれらの多くを実行する必要があります。
- SSH を使用せずに (「hadoop jar」コマンドに基づいて、または単純にアプリケーションを実行するだけで)、クラスターの外部からジョブを実行することが (より簡単に、より適切に) 可能になるはずです。
- Jobs 言語自体は、短くて論理的なセマンティックを許可する必要があります。理想的には、このコードは自動的に生成されるほど単純である必要があります。
- このソリューションは、十分な大きさの HBase テーブル (最初は最大 100.000.000 エントリ) で生産性を発揮するはずです。
- OK、ソリューションは「ライブ」(積極的に開発中)である必要がありますが、一般的な安定性に関しては比較的良好です。
ここでの議論は、ソリューション自体よりもさらに役立つ可能性があると思います。この質問は、多くの人にいくつかのアイデアを追加するはずです. アドバイスはありますか?