hadoop - Hadoop で定期的にデータを分析する方法

Question

常に大量のデータを生成するデータソースがあり、このデータを定期的に Hadoop クラスターに配置しています。

このデータを X 分ごとに分析したいのですが、毎回すべてのデータに対して分析を実行するのではなく、最後の x 分間だけ分析したいのです...

リアルタイムでデータを hbase に入れています。最後の x 分間を取得し、このデータに対して mr ジョブを実行する最良の方法は何ですか?

score 1 · Accepted Answer

OOZIEの使用を検討しましたか？ワークフロー調整システムです。これには、MapReduceジョブを定期的に実行するように構成できるコーディネーターの概念があります。

次に、これを使用して、HBaseを入力として使用するM/Rジョブを実行できます。

1 に答える 1