2

コンテクスト:

毎日90GBのデータの一定のライブストリームを計算する方法として、AMQP準拠のソリューションを検討しています。私たちが達成したいのは、私たちが観察しているメトリックのすべてまたはいくつかの組み合わせに基づいた、多かれ少なかれライブ統計です。考慮される戦略は、キューにデータを送信し、ワーカーにデータのデルタを処理させ、元のデータの集約としてデータをキューに送り返すことです。

観察:

私には、これはHadoopのようなものの仕事のように見えますが、主に速度に関する懸念(およびシールド)が提起されました。両方のベンチマークを行う時間がありませんでしたが、キューを介して大量のデータを送り出すことを期待しています(10〜100 mb / s付近のどこか)。それでも分散コンピューティングシステムの仕事のように見えると思います。また、キューソリューションは分散コンピューティングソリューションよりも拡張性が低いと感じています。

質問:

簡単に言えば、私は正しいですか?Hadoop + HDFSについて少し読んだことがありますが、Lustreなどの別のFSを使用して、NodeName SPOFを回避し、ある種のソリューションを使用して、あらゆる種類のノードの障害に対するある種の耐性を持たせることを考えていました。クラスター全体。

4

1 に答える 1

2

フェイルトレランス、適切なバランス調整などが必要な場合、独自の「分散環境」ソリューションを作成するのは非常に困難です。ほぼリアルタイムのマップ/リデュースが必要な場合は、Twitterが膨大なデータのニーズに使用するストームをチェックアウトする必要があります。Hadoopよりも複雑ではなく、キュータイプの入力を消費する方が優れています(私の意見では)。

また、hadoopでデータを分析する場合は、名前ノードのSPOFについてあまり心配しないでください。これを回避するには、いくつかの方法があります。

于 2012-05-02T15:11:28.843 に答える