コンテクスト:
毎日90GBのデータの一定のライブストリームを計算する方法として、AMQP準拠のソリューションを検討しています。私たちが達成したいのは、私たちが観察しているメトリックのすべてまたはいくつかの組み合わせに基づいた、多かれ少なかれライブ統計です。考慮される戦略は、キューにデータを送信し、ワーカーにデータのデルタを処理させ、元のデータの集約としてデータをキューに送り返すことです。
観察:
私には、これはHadoopのようなものの仕事のように見えますが、主に速度に関する懸念(およびシールド)が提起されました。両方のベンチマークを行う時間がありませんでしたが、キューを介して大量のデータを送り出すことを期待しています(10〜100 mb / s付近のどこか)。それでも分散コンピューティングシステムの仕事のように見えると思います。また、キューソリューションは分散コンピューティングソリューションよりも拡張性が低いと感じています。
質問:
簡単に言えば、私は正しいですか?Hadoop + HDFSについて少し読んだことがありますが、Lustreなどの別のFSを使用して、NodeName SPOFを回避し、ある種のソリューションを使用して、あらゆる種類のノードの障害に対するある種の耐性を持たせることを考えていました。クラスター全体。