MapReduce アプローチを使用して (HTTP 経由でアクセスされる) データの連続ストリームを分析したいので、Apache Hadoop を調べています。残念ながら、Hadoop は、新しいデータが到着したときに消費者に渡すことができるのではなく、固定サイズの入力ファイルでジョブを開始することを期待しているようです。これは実際に当てはまりますか、それとも何か不足していますか? 開いているソケットから読み込まれるデータを操作する別の MapReduce ツールはありますか? ここではスケーラビリティが問題になるので、MapReducer に厄介な並列処理を処理させたいと思います。
Cascadingをいじってみたところ、HTTP 経由でアクセスする静的ファイルでジョブを実行できましたが、これで実際に問題が解決するわけではありません。中間ステップとして curl を使用して Hadoop ファイルシステムのどこかにデータをダンプし、新しいデータ チャンクの準備が整うたびに新しいジョブを起動するウォッチドッグを作成することもできますが、それは汚いハックです。これを行うには、もっとエレガントな方法が必要です。何か案は?