0

MRJob ライブラリを使用して Python で記述された MapReduce ジョブがあります。このジョブは、ローカル マシンで完了するまでに約 30 分かかります。EMR で同じジョブを実行している間、出力が長時間 (~=1 時間) 表示されません。私は仕事を閉めなければなりませんでした。また、私のローカル マシンでは非常に短時間しかかからないジョブも、EMR では非常にうまく実行されます。タイムアウトを増やしてみましたが、タイムアウト後にタスクトラッカーがレデューサーを強制終了します。次のエラー メッセージが表示されます

`Task attempt_201301181027_0001_r_000000_0 failed to report status for 3600 seconds.Killing!

EMR は私の仕事のために 4 つのマッパーと 1 つのレデューサーを作成します。また、私が書いたレデューサー コードでは、約 11 ~ 12 MB のデータ セット全体を何度もループする必要があります。ローカル マシンとほぼ同じ時間でジョブが終了することを期待していますが、そうではありません。解決策は??`

4

0 に答える 0