Hadoop でタスクを減らすときに開始するときから、hadoop の減らすタスクには 3 つのステップが含まれていることを理解しています: シャッフル、並べ替え、並べ替え (およびその後の縮小) は、すべてのマッパーが完了した後にのみ開始できます。マッパーが終了するたびにソートを開始して削減する方法はありますか?
たとえば、マッパー mapperA と mapperB と 2 つのレデューサーを持つジョブを 1 つだけ持つとします。私がやりたいことは次のとおりです。
- mapperA の終了
- shuffles は mapperAs の適切なパーティションをコピーします出力はレデューサー 1 と 2 に伝えます
- レデューサー 1 と 2 での並べ替えは、並べ替えと削減を開始し、いくつかの中間出力を生成します
- これで mapperB が終了します
- shuffles は mapperBs 出力の適切なパーティションをレデューサー 1 と 2 にコピーします
- レデューサー 1 と 2 の並べ替えと削減が再び開始され、レデューサーは新しい出力を古い出力とマージします
これは可能ですか?ありがとう