3

Scala (またはJava ) アプリケーションからHadoopクラスター上のHBaseにアクセスするための優れたソリューション (フレームワーク) を推奨してもらえますか?

今のところ、やけどの方向に進んでいます。入手したプロトタイプにより、scalding ライブラリをMavenと組み合わせ、scalding ジョブ JAR を「ライブラリ」コード パッケージから分離することができました。これにより、ジョブごとのオーバーヘッドを最小限に抑えながら、クラスター外からスケーティング ベースの Hadoop ジョブを実行できるようになりました (「ライブラリ」コードは、クラスターの「分散キャッシュ」が変更された場合にのみポストされます (これはほとんど必要ありません)。そのため、ジョブ コードを高速にロードできます)。 .

今、私は実際に HBase 自体をいじり始めており、scalding は良いことだと思いますが、HBase にとってそれほど「ネイティブ」ではありません。はい、 hbase-scalding のようなものがありますが、将来のアクションを計画するポイントがあるので、おそらく見逃した他の良い解決策について知りたいです。

期待されること:

  • オーバーヘッドを開始するアプリケーション (ジョブ) は低くする必要があります。私はそれらの多くを実行する必要があります。
  • SSH を使用せずに (「hadoop jar」コマンドに基づいて、または単純にアプリケーションを実行するだけで)、クラスターの外部からジョブを実行することが (より簡単に、より適切に) 可能になるはずです。
  • Jobs 言語自体は、短くて論理的なセマンティックを許可する必要があります。理想的には、このコードは自動的に生成されるほど単純である必要があります。
  • このソリューションは、十分な大きさの HBase テーブル (最初は最大 100.000.000 エントリ) で生産性を発揮するはずです。
  • OK、ソリューションは「ライブ」(積極的に開発中)である必要がありますが、一般的な安定性に関しては比較的良好です。

ここでの議論は、ソリューション自体よりもさらに役立つ可能性があると思います。この質問は、多くの人にいくつかのアイデアを追加するはずです. アドバイスはありますか?

4

5 に答える 5

3

HPaste http://www.gravity.com/labs/hpaste/が探しているものかもしれません。

于 2013-07-15T22:26:17.757 に答える
1

更新 (2014 年 8 月): Stratosphere はApache Flinkと呼ばれるようになりました (インキュベーション中)

成層圏をチェックしてください。If はScala APIを提供し、 HBase モジュールを持ち、活発に開発中です。

  • ジョブの開始は 1 秒ほどで可能になるはずです (クラスターのサイズによって異なります)。
  • RemoteExecutorジョブをリモートでサブミットできます (リモート クラスターでプログラムによってジョブをサブミットできるようにするというクラスがあります)

さらに質問がある場合は、私に連絡してください!

于 2014-01-13T21:55:25.980 に答える
0

現在、空き時間に hbase-scalding を維持しようとしています。私もScalaを拾っています。

githubを見てください

于 2013-09-12T04:31:04.560 に答える