25 ~ 20 のエージェントがデータをいくつかのコレクター エージェントに送信し、これらのコレクター エージェントはデータを HDFS に書き込む必要があります。
これらのコレクター エージェントはどこで実行しますか? Hadoop クラスターのデータ ノード上ですか、それともクラスター外ですか? それぞれの長所と短所は何ですか?また、人々は現在どのようにそれらを実行していますか?
Flumeのようなものを使用していると思います。その場合、Flume エージェント (少なくとも第 1 層) は、データのソースがどこであっても実行されます。IE: Web ログ用の Web サーバー..
Flume は JMS などの他のプロトコルをサポートしているため、それらのシナリオでは場所が異なります。
実稼働クラスターの場合、データノードで Flume のような「エージェント」を実行したくありません。クラスターのハードウェアのリソースを平準化するのが最善です。
エージェントが多数ある場合は、階層型アーキテクチャを使用して、多数のソースを統合し、HDFS に書き込むエージェントの小さなセットに集中させます。これにより、クラスターの可視性と外部サーバーへの公開を制御できます。