java - 縮小中に Hadoop ジョブが失敗する、Java.io.IOException: マップからの値のタイプの不一致

Question

私Mapのクラスは

 public static class MapClass extends Mapper<LongWritable, Text, Text, LongWritable> {

        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            // your map code goes here
            String[] fields = value.toString().split(",");
            String year = fields[1];
            String claims = fields[8];

            if (claims.length() > 0 && (!claims.startsWith("\""))) {
                context.write(new Text(year), new LongWritable(Long.parseLong(claims)));
            }
        }
    }

私Reduceのクラスは次のようになります

   public static class Reduce extends Reducer<Text, LongWritable, Text, Text> {


        public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
            // your reduce function goes here
            context.write(key, new Text("hello"));
        }
    }

データセットは次のようになります

3070801,1963,1096,,"BE","",,1,,269,6,69,,1,,0,,,,,,,
3070802,1963,1096,,"US","TX",,1,,2,6,63,,0,,,,,,,,,

構成でプログラムを実行すると

        Job job = new Job();
        job.setJarByClass(TopKRecords.class);

        job.setMapperClass(MapClass.class);
        job.setReducerClass(Reduce.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.setJobName("TopKRecords");
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

エラーは次のように表示されます

java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1019)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691)
    at org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80)
    at com.hadoop.programs.TopKRecords$MapClass.map(TopKRecords.java:35)
    at com.hadoop.programs.TopKRecords$MapClass.map(TopKRecords.java:26)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
    at org.apache.hadoop.mapred.Child.main(Child.java:249)

ここで何が間違っているのですか？

ここで不一致の理由がわかりません

Mapper<LongWritable, Text, Text, LongWritable>
Reducer<Text, LongWritable, Text, Text>

アップデート

以下を設定した後、物事が機能し始めました

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

score 1 · Accepted Answer

セットアップ中に次の行も必要です。

job.setMapOutputValueClass(LongWritable.class);

Hadoop 20.2 Javadocから:

これにより、ユーザーはマップ出力値クラスを最終出力値クラスとは異なるものに指定できます。

わかりやすくするために、次を追加することもできます。

job.setMapOutputKeyClass(Text.class);

ただし、この場合は必要ありません。

score 0 · Accepted Answer

これは明らかに間違っていませんか？

context.write(new Text(year), new LongWritable(Long.parseLong(claims)));

そしてあなたのマッパーは

Mapper<LongWritable, Text, Text, LongWritable>

ここでキーと値の型を交換しました。

java - 縮小中に Hadoop ジョブが失敗する、Java.io.IOException: マップからの値のタイプの不一致

2 に答える 2

Related

Reference