常に大量のデータを生成するデータ ソースがあり、このデータを定期的に Hadoop クラスターに配置しています。
このデータを X 分ごとに分析したいのですが、毎回すべてのデータに対して分析を実行するのではなく、最後の x 分間だけ分析したいのです...
リアルタイムでデータを hbase に入れています。最後の x 分間を取得し、このデータに対して mr ジョブを実行する最良の方法は何ですか?
OOZIEの使用を検討しましたか?ワークフロー調整システムです。これには、MapReduceジョブを定期的に実行するように構成できるコーディネーターの概念があります。
次に、これを使用して、HBaseを入力として使用するM/Rジョブを実行できます。