2

25 ~ 20 のエージェントがデータをいくつかのコレクター エージェントに送信し、これらのコレクター エージェントはデータを HDFS に書き込む必要があります。

これらのコレクター エージェントはどこで実行しますか? Hadoop クラスターのデータ ノード上ですか、それともクラスター外ですか? それぞれの長所と短所は何ですか?また、人々は現在どのようにそれらを実行していますか?

4

2 に答える 2

1

Flumeのようなものを使用していると思います。その場合、Flume エージェント (少なくとも第 1 層) は、データのソースがどこであっても実行されます。IE: Web ログ用の Web サーバー..

Flume は JMS などの他のプロトコルをサポートしているため、それらのシナリオでは場所が異なります。

実稼働クラスターの場合、データノードで Flume のような「エージェント」を実行したくありません。クラスターのハードウェアのリソースを平準化するのが最善です。

エージェントが多数ある場合は、階層型アーキテクチャを使用して、多数のソースを統合し、HDFS に書き込むエージェントの小さなセットに集中させます。これにより、クラスターの可視性と外部サーバーへの公開を制御できます。

于 2014-03-27T00:23:03.567 に答える