1

10 個のデータ ノードのクラスターで Map reduce プログラムのパフォーマンス テストを試みていました。プロセス中、私は 5 の Reducer を使用し、次に 10 のように処理しました。

レデューサーの数を増やすとジョブの終了も速くなると考えていましたが、30 を超えると、70 まで数を増やしてもジョブの実行時間に違いはありませんでしたが、400 を超える一意のキーがあり、増加していますレデューサーの数が 30 を超えると違いが生じるはずです。

これに特定の理由があるかどうかを理解するのを手伝ってくれる人はいますか?

前もって感謝します

4

1 に答える 1

1

パフォーマンスの向上が見られない理由はいくつかあります。このパフォーマンス テストを行うとき、どのベンチマークを実行していますか? また、マッパーは何人いますか?仕事の規模など...

ここで簡単に説明したことから、十分な数のマッパーがいないか、終了が遅すぎると思われます。

リデューサーは、マッパーからの出力が利用可能になるとすぐにジョブを開始できることに注意してください。したがって、マッパーの出力速度とサイズを処理するのに 30 個のレデューサーで十分な場合があります。それ以上追加しても違いはありません。それらのほとんどはアイドル状態でマッパーが終了し、レデューサーが処理する新しいデータを提供するのを待っているからです。 .

これが役立つことを願っています!

于 2012-11-28T22:30:34.847 に答える