私は最近、結果を結合ステージに渡す前にすべてのマッパーを完了する必要があるジョブを実行する必要がありました (処理されたファイルの構造が原因でした)。この機能は、以下を構成することでレデューサーで利用できます -
// force 100% of the mappers to conclude before reducers start
job.set("mapred.reduce.slowstart.completed.maps", "1.0");
コンバインステージの同様の構成は見つかりませんでした。最終的に、ジョブを 2 つの部分に分割し、コンバイン ステージがレデューサーとして機能し、元の reduce がジョブ #2 に渡されました (mapper2 はデータを変更せずに渡すだけです)。
私は疑問に思っていました-結合する前に100%のマップ完了を構成するのを逃した方法はありますか? ありがとう。