hadoop - Hadoop mapreduce getMapOutput が失敗しました

Question

現在のセットアップ:
- Hadoop 0.20.2-cdh3u3
- Hbase バージョン 0.90.4-cdh3u3
- Jetty-6.1.14
- VM で実行 (Debian Squeeze)

Hbase テーブルの mapreduce プロセス中に問題が発生します。Reduce フェーズでは、毎回まったく同じ時点でクラッシュし、tasktracker.log に次のログが記録されます。

ERROR org.apache.hadoop.mapred.TaskTracker: getMapOutput(attempt_201205290717_0001_m_000010_0,3) failed:
org.mortbay.jetty.EofException

WARN org.mortbay.log: Committed before 410 getMapOutput(attempt_201205290717_0001_m_000010_0,3) failed :
org.mortbay.jetty.EofException

ERROR org.mortbay.log: /mapOutput
java.lang.IllegalStateException: Committed

解決策を探して、誰かが以前に同じまたは同様の問題に直面したことを願っています。

score 1 · Accepted Answer

ここで同じ問題に直面しています。

私のクラスターでは、これは 1 つを除くすべてのスレーブ (datanode と tasttracker) で発生します。その結果、一般的な reduce プロセスが最初は非常にゆっくりと進行し、エラーが原因でこれまでの reduce 進行のリロールのある時点で発生します。その後、削減プロセスが最初からやり直されます。ジョブは決して終了しません。

バグトラッカーには未解決の重大な問題があります。https://issues.apache.org/jira/browse/MAPREDUCE-5を参照してください

いつか修正されることを願っていますが、現時点では、3 GB を超える巨大なファイルで Hadoop プログラムをまったく使用できません。私の場合、追加のデータクリーニングとより効率的なデータ構造 (trove、fastutils) によって修正できることを願っています。そのため、問題はまったく発生しませんが、正直なところ、これはここでのアプローチが間違っているように感じます。とにかく、これらの小さな調整を行わないことが、hadoop から始める主な理由でした。

score 0 · Accepted Answer

EOFExceptionreduce タスクが jetty サーバーへの接続を時期尚早に閉じると、Jettyが観察されます。タスクトラッカーを再始動して、ジョブを再実行してください。それがあなたのために働くかどうか見てください。

hadoop - Hadoop mapreduce getMapOutput が失敗しました

2 に答える 2

Related

Reference