一部のマッパーが他のマッパーよりもかなり多くの時間を費やしている MapReduce ジョブを長時間実行しています。
Web インターフェースの統計を確認すると、私のコンバイナがレデューサー (2 つのマッパーがまだ実行されているためほとんどアイドル状態) にも影響を与えていることがわかりました。
時間を無駄にせず、すべてのマッパーが終了するまで事前集計を行うのが妥当と思われますが、この動作に関するドキュメントは見つかりません。これが実際に Hadoop の機能であること、または単に Web インターフェースで間違って表示されていることを確認できる人はいますか?