hadoop - MR1 CDH4 を使用した単純な MapReduce ストリーミングジョブの実行の失敗

Question

最近 CDH3 からアップグレードされた CDH4 を実行しているクラスターがあります。ハイブは現在、かなりうまく機能しています。ただし、単純な MR Streaming ジョブ (バージョン 1) でさえ実行できないようです。Yarn はインストールされていますが、使用されていません。コマンドラインの入力と出力は次のとおりです

$ /usr/lib/hadoop/bin/hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-  streaming-2.0.0-mr1-cdh4.0.0.jar grep -input /input -output /output/ 'dfs[a-z.]+'

ログを確認すると、次のことがわかります。

packageJobJar: [/tmp/hadoop-hdfs/hadoop-unjar7491355516546899751/] [] /tmp/streamjob1375201380112960182.jar tmpDir=null
12/07/12 07:26:29 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
12/07/12 07:26:29 INFO util.NativeCodeLoader: Loaded the native-hadoop library
12/07/12 07:26:29 WARN snappy.LoadSnappy: Snappy native library is available
12/07/12 07:26:29 INFO snappy.LoadSnappy: Snappy native library loaded
12/07/12 07:26:29 INFO mapred.FileInputFormat: Total input paths to process : 3
12/07/12 07:26:29 INFO streaming.StreamJob: getLocalDirs(): [file:////data/hadoop-0.20/cache/mapred/mapred/local]
12/07/12 07:26:29 INFO streaming.StreamJob: Running job: job_201207120604_0018
12/07/12 07:26:29 INFO streaming.StreamJob: To kill this job, run:
12/07/12 07:26:29 INFO streaming.StreamJob: UNDEF/bin/hadoop job  -Dmapred.job.tracker=frost:54311 -kill job_201207120604_0018
12/07/12 07:26:29 INFO streaming.StreamJob: Tracking URL: >http://alpha:50030/jobdetails.jsp?jobid=job_201207120604_0018
12/07/12 07:26:30 INFO streaming.StreamJob:  map 0%  reduce 0%
12/07/12 07:26:57 INFO streaming.StreamJob:  map 100%  reduce 100%
12/07/12 07:26:57 INFO streaming.StreamJob: To kill this job, run:
12/07/12 07:26:57 INFO streaming.StreamJob: UNDEF/bin/hadoop job  -Dmapred.job.tracker=frost:54311 -kill job_201207120604_0018
12/07/12 07:26:57 INFO streaming.StreamJob: Tracking URL: >http://alpha:50030/jobdetails.jsp?jobid=job_201207120604_0018
12/07/12 07:26:57 ERROR streaming.StreamJob: Job not successful. Error: NA
12/07/12 07:26:57 INFO streaming.StreamJob: killJob...
Streaming Command Failed!

ログは多くの失敗を出力し、タスクを減らします:

2012-07-12 07:26:46,785 INFO org.apache.hadoop.mapred.TaskInProgress: Error from attempt_201207120604_0018_m_000001_2: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:861)
    at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:501)
    at org.apache.hadoop.mapred.lib.IdentityMapper.map(IdentityMapper.java:38)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:393)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:327)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:270)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
    at org.apache.hadoop.mapred.Child.main(Child.java:264)

score 0 · Accepted Answer

(JobTracker Web インターフェイス経由で) 送信されたジョブに対して生成された job.xml を調べて、マッパーに定義されている値を確認できますか? (mapreduce.map.classプロパティ)。

含めたマップログから、ID マッパーが構成されている可能性があるようです (したがって、テキストのジョブ定義値ではなく、LongWritable が出力キーとして出力されます)。

マップからのキーの型の不一致: 予期される org.apache.hadoop.io.Text、受信された org.apache.hadoop.io.LongWritable

この場合、2.0.0 hadoop のストリーミングコード (すぐには手元にありません) を調べる必要がありhadoop-streaming-2.0.0-mr1-cdh4.0.0.jarます。引数を指定して jar を起動すると、ジョブがどのように構成および実行されるかを確認する必要があります。

hadoop - MR1 CDH4 を使用した単純な MapReduce ストリーミング ジョブの実行の失敗

1 に答える 1

Related

Reference

hadoop - MR1 CDH4 を使用した単純な MapReduce ストリーミングジョブの実行の失敗