1

以前は問題なく実行されていたhadoop0.20map/reduceジョブがあります。過去数日間、16.66%でreduceフェーズでスタックしています。ジョブトラッカーでreduceタスクを見ると、次のエラーが表示されます。

Shuffle Error: Exceeded the abort failure limit; bailing-out.

誰かがそれが何を意味するのか教えてもらえますか、そして多分私がこれを修正する方法を理解できるように正しい方向に私を向けることができますか?

4

1 に答える 1

1

このエラーは、レデューサーがマップ出力を報告してプロパティにマップする前に、マップ出力をフェッチしようとする最大回数に対応しますmapreduce.reduce.shuffle.maxfetchfailures

このプロパティを増やしてみることができますが、通常はデフォルト値の10で十分なので、もっと深刻なことがあるかもしれません。

フェッチの失敗に似た何かが誤った/etc/ hostsファイルが原因であり、少しグーグルした後、これが問題である可能性があるように見える場合を覚えています。次のことを試してください。

  • ipsの代わりにホスト名を使用する
  • / etc / hostsをすべてのノード間で同期します(Puppetなどを使用すると簡単になります)
  • 「127.0.0.1localhost」をコメントアウトしてみてください</li>
  • クラスタを再起動します
于 2013-01-20T16:39:17.417 に答える