python - hadoop-streaming: レデューサーが保留状態で、起動しませんか?

Question

次のようないくつかの失敗したマップタスクが表示されるまで、正常に実行されていたマップ削減ジョブがあります

attempt_201110302152_0003_m_000010_0    task_201110302152_0003_m_000010 worker1 FAILED  
Task attempt_201110302152_0003_m_000010_0 failed to report status for 602 seconds. Killing!
-------
Task attempt_201110302152_0003_m_000010_0 failed to report status for 607 seconds. Killing!
Last 4KB
Last 8KB
All
attempt_201110302152_0003_m_000010_1    task_201110302152_0003_m_000010 master  FAILED  
java.lang.RuntimeException: java.io.IOException: Spill failed
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:545)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:132)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:36)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:261)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
    at org.apache.hadoop.mapred.Child.main(Child.java:255)
Caused by: java.io.IOException: Spill failed
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1029)
    at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:592)
    at org.apache.hadoop.streaming.PipeMapRed$MROutputThread.run(PipeMapRed.java:381)
Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for output/spill11.out
    at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:381)
    at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:146)
    at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:127)
    at org.apache.hadoop.mapred.MapOutputFile.getSpillFileForWrite(MapOutputFile.java:121)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1392)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$1800(MapTask.java:853)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1344)
Last 4KB
Last 8KB
All

そして今、リデューサーは実行を開始しませんが、以前はリデューサーがマップタスクの実行中でもデータのコピーを開始していましたが、私が見るのはこれだけです

11/10/31 03:35:12 INFO streaming.StreamJob:  map 95%  reduce 0%
11/10/31 03:44:01 INFO streaming.StreamJob:  map 96%  reduce 0%
11/10/31 03:51:56 INFO streaming.StreamJob:  map 97%  reduce 0%
11/10/31 03:55:41 INFO streaming.StreamJob:  map 98%  reduce 0%
11/10/31 04:04:18 INFO streaming.StreamJob:  map 99%  reduce 0%
11/10/31 04:20:32 INFO streaming.StreamJob:  map 100%  reduce 0%

私は初心者でhadoop、mapreduce以前は正常に実行されていた同じコードが失敗する原因が何であるかを本当に知りません

助けてください

ありがとうございました

score 1 · Accepted Answer

をご覧くださいmapred.task.timeout。非常に大量のデータがあり、それを処理するマシンが少ない場合、タスクがタイムアウトする可能性があります。この値を設定して、0このタイムアウトを無効にすることができます。

または、または同等の関数を呼び出しcontext.progressて、ジョブがタイムアウトしないように何かが起こっていることを伝えることができる場合。

score 0 · Accepted Answer

私はこれと同じ問題を抱えていましたが、それを解決するために2つのことをしました：

1 つ目は、マッパーの出力を圧縮することmapred.output.compress=trueです。マッパーが実行されると、出力がディスクにスピルされ (ディスクに書き込まれ)、場合によってはその出力を別のマシンのレデューサーに送信する必要があります。出力を圧縮すると、ネットワークトラフィックが減少するだけでなく、マッパーを実行しているマシンで必要なディスクの量も減少します。

次に行ったのは、hdfs および mapred ユーザーの ulimits を増やすことでした。これらの行をに追加しました/etc/security/limits.conf

mapred      soft    nproc       16384
mapred      soft    nofile      16384
hdfs        soft    nproc       16384
hdfs        soft    nofile      16384
hbase       soft    nproc       16384
hbase       soft    nofile      16384

この投稿には、より完全な説明があります: http://www.cloudera.com/blog/2009/03/configuration-parameters-what-can-you -just-ignore/

python - hadoop-streaming: レデューサーが保留状態で、起動しませんか?

2 に答える 2

Related

Reference