0

特定のHadoopクラスター構成に関してデータを収集する「標準的な」方法は何か、つまり、特定のクラスター構成がスループット、帯域幅、およびその他の考慮すべきもののように実行される速度に関する具体的な証拠を取得する方法を知りたかった. 私は現在、TestDFSIO を調べて理解しようとしていますが、Hadoop のパフォーマンスを完全に分析しているとは思えません (特定のオーバーヘッドを考慮していないことをどこかで読みました)。

それが役立つ場合、私の現在の Hadoop クラスターのセットアップは 2 台のサーバーであり、その上に KVM があり、1 台には 2 台の VM があり、もう 1 台には 1 台の VM があります。この構成のパフォーマンスを、より単純な Hadoop 構成 (KVM または VM なし) と比較したいと考えています。

4

1 に答える 1

1

他のベンチマークがあります。具体的には、クラスターのシャッフル パフォーマンスを測定する TeraSort ですが、それらが有益すぎるとは言えません。IMHO Hadoop クラスターのプロファイリングは、JVM のプロファイリングに似ています。具体的なアプリケーションがなければ意味がありません。
. Hadoop クラスターのパフォーマンスは、実行する予定の MR ジョブに関連して評価する必要があることを伝えたいと思います。一部のジョブは IO バウンドになり、残りのシステム パフォーマンスは関係ありません。一部はマップ ステージで CPU バウンドになり、残りは重要ではありません。

于 2012-08-13T19:48:34.157 に答える