私はStormについて読んで、storm-starter の例をいじっています。
コンセプトは理解できたと思いますし、多くの場合にうまく当てはまります。これについてもっと知りたいと思っているテスト プロジェクトがありますが、Storm が本当にこれに適しているかどうか疑問に思っています。
私が抱えている概念的な問題は、「ストリーミング」の定義にあります。Storms は、ストリームをサブスクライブしてリアルタイムで処理するチャームとして機能するようですが、実際にはストリームを持っているわけではなく、処理したいデータの有限のコレクションを持っています。
これには Hadoop があることは知っていますが、Storm のリアルタイム機能や、Storm を書いた Nathan が講演で言及しているその他の興味深い点に興味があります。
だから、ストリームをエミュレートするために、非ストリーミング API をポーリングし、結果を比較するスパウトを作成する人がいるのだろうか?
2 番目の重要な点は、Storm トポロジは中断されるまで処理を終了しないように見えることです。これは、私の場合には当てはまりません。ソース データの有限リストが終了したら、処理を終了して最終結果を出力できることをトポロジに知らせたいと思います。
それで、それはすべてストームの用語で意味がありますか、それとも私は間違ったことを見ていますか? もしそうなら、この種のリアルタイム並列コンピューティングのニーズに対して、どのような代替案を提案しますか?
ありがとう!