100 のマッパーが並行して実行されており、合計 500 のマッパーが実行されているとします。
各マッパーが受け取る入力サイズはほぼ同じで、各マッパーにかかる処理時間はほぼ同じです。
しかし、最初の 100 人のマッパーが 20 分で終了するとします。次の 100 人のマッパーは 25 ~ 30 分かかり、次の 100 人のマッパーのバッチはそれぞれ約 40 ~ 50 分かかります。その後、GC オーバーヘッド エラーが発生します。
なぜこうなった?
次の構成が既に設定されています。
<property><name>mapred.child.java.opts</name><value>-Xmx4096m</value></property>
<property><name>mapred.job.reuse.jvm.num.tasks</name><value>1</value></property>
ここで他に何ができますか?