hadoopwikiでこれへの特定の参照を見つけることができませんでした...
100人のマッパーを必要とする仕事があり、スキューがないとします。「map.tasks.maximum」を100に設定すると、hadoopはすべてが完了するまで待機してから、シャッフル(レデューサーにコピー)します。これには、ネットワーク帯域幅の保留に時間がかかります。
「map.tasks.maximum」を10に設定すると、10世代のマッパーが10世代存在し、各世代が完了すると、次世代のマッパーがすでに機能している間にデータの1/10のシャッフルが実行されます。次のレコードで。
それは本当にもっと合理化され、私の仕事の待ち時間を改善するでしょうか?それも価値のある目標ですか?それはクラスターのスループットを犠牲にしてもたらされるのでしょうか?