0

常に大量のデータを生成するデータ ソースがあり、このデータを定期的に Hadoop クラスターに配置しています。

このデータを X 分ごとに分析したいのですが、毎回すべてのデータに対して分析を実行するのではなく、最後の x 分間だけ分析したいのです...

リアルタイムでデータを hbase に入れています。最後の x 分間を取得し、このデータに対して mr ジョブを実行する最良の方法は何ですか?

4

1 に答える 1

1

OOZIEの使用を検討しましたか?ワークフロー調整システムです。これには、MapReduceジョブを定期的に実行するように構成できるコーディネーターの概念があります。

次に、これを使用して、HBaseを入力として使用するM/Rジョブを実行できます。

于 2012-06-18T13:23:11.020 に答える