特定のHadoopクラスター構成に関してデータを収集する「標準的な」方法は何か、つまり、特定のクラスター構成がスループット、帯域幅、およびその他の考慮すべきもののように実行される速度に関する具体的な証拠を取得する方法を知りたかった. 私は現在、TestDFSIO を調べて理解しようとしていますが、Hadoop のパフォーマンスを完全に分析しているとは思えません (特定のオーバーヘッドを考慮していないことをどこかで読みました)。
それが役立つ場合、私の現在の Hadoop クラスターのセットアップは 2 台のサーバーであり、その上に KVM があり、1 台には 2 台の VM があり、もう 1 台には 1 台の VM があります。この構成のパフォーマンスを、より単純な Hadoop 構成 (KVM または VM なし) と比較したいと考えています。