hadoop - Hadoop マップ削減プログラムでクラスキャスト例外が発生するのはなぜですか?

Question

Hadoop マップ削減プログラムでクラスキャスト例外が発生するのはなぜですか? 今、これは私に例外を与えています。私のマップは、キー/値の出力を Text/IntWritable として生成する必要があります。私はそれをやっていますが、まだ IOException を取得しています

public class AverageClaimsPerPatentsByCountry {


    public static class  MyMap extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {

        @Override
        public void map(LongWritable key, Text value,
                OutputCollector<Text, IntWritable> output, Reporter reporter)
                throws IOException {

            String[] fields = value.toString().split(",");
            if(fields.length >=7) {
                String country = fields[4];
                String claimsCount = fields[8];
                System.out.println(value.toString());

                int i = Integer.valueOf(claimsCount);
                System.out.println(country+" --> "+i);
                if(claimsCount.length() > 0) {

                    output.collect(new Text(country), new IntWritable(i));
                }
            }
        }

    }

    public static class MyReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, DoubleWritable> {

        @Override
        public void reduce(Text key, Iterator<IntWritable> values,
                OutputCollector<Text, DoubleWritable> output, Reporter reporter)
                throws IOException {
            int count = 0;
            double claimsCount = 0;
            while(values.hasNext()) {
                claimsCount+=Double.valueOf(values.next().get());
                count++;
            }
            double average = claimsCount/count;
            output.collect(key, new DoubleWritable(average));           
        }

    }

    public static class MyJob extends Configured implements Tool {

        @Override
        public int run(String[] args) throws Exception {
            Configuration conf = getConf();
            JobConf job = new JobConf(conf, MyJob.class);
            FileInputFormat.addInputPaths(job, "patents/patents.csv");
            FileOutputFormat.setOutputPath(job, new Path("patents/output"));
            job.setInputFormat(TextInputFormat.class);
            job.setOutputFormat(TextOutputFormat.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(DoubleWritable.class);
            job.setMapperClass(MyMap.class);
            job.setReducerClass(MyReducer.class);
            JobClient.runJob(job);
            return 0;
        }

    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        ToolRunner.run(conf, new MyJob(), args);
    }

}

Exception :-->
12/09/30 18:32:34 INFO mapred.JobClient: Running job: job_local_0001
12/09/30 18:32:34 INFO mapred.FileInputFormat: Total input paths to process : 1
12/09/30 18:32:34 INFO mapred.MapTask: numReduceTasks: 1
12/09/30 18:32:34 INFO mapred.MapTask: io.sort.mb = 100
12/09/30 18:32:35 INFO mapred.MapTask: data buffer = 79691776/99614720
12/09/30 18:32:35 INFO mapred.MapTask: record buffer = 262144/327680
4000000,1976,6206,1974,"US","NV",,1,10,106,1,12,12,17,0.3333,0.7197,0.375,8.6471,26.8333,,,,
"US" --> 10
12/09/30 18:32:35 WARN mapred.LocalJobRunner: job_local_0001
java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.DoubleWritable, recieved org.apache.hadoop.io.IntWritable
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:850)
    at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:466)
    at action.eg1.AverageClaimsPerPatentsByCountry$MyMap.map(AverageClaimsPerPatentsByCountry.java:53)
    at action.eg1.AverageClaimsPerPatentsByCountry$MyMap.map(AverageClaimsPerPatentsByCountry.java:1)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:358)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:307)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:177)
12/09/30 18:32:35 INFO mapred.JobClient:  map 0% reduce 0%
12/09/30 18:32:35 INFO mapred.JobClient: Job complete: job_local_0001
12/09/30 18:32:35 INFO mapred.JobClient: Counters: 0
Exception in thread "main" java.io.IOException: Job failed!

score 1 · Accepted Answer

マッパーの出力クラスを指定しない場合、setOutputClass で指定されたクラス、つまり MyReducer がデフォルトになります。

あなたはこれを必要とします：

setMapOutputClass(IntWritable.class)

score 0 · Accepted Answer

https://developer.yahoo.com/hadoop/tutorial/module4.htmlからの引用:

レデューサーによって発行されるデータ型は、setOutputKeyClass() および setOutputValueClass() によって識別されます。デフォルトでは、これらはマッパーの出力タイプでもあると想定されています。そうでない場合は、JobConf クラスのメソッド setMapOutputKeyClass() および setMapOutputValueClass() メソッドがこれらをオーバーライドします。

したがって、setOutputKeyClass() と setOutputValueClass() は、マッパーとリデューサーの両方の出力タイプを定義します。マッパーが異なる出力タイプを持つ必要がある場合は、setMapOutputKeyClass() および setMapOutputValueClass() を使用します。

現在の Haddop バージョン (2.5.1 だけでなく、以前のいくつかのバージョンも) では、JobConf の代わりに Job クラスを使用することをお勧めします。

Job job = Job.getInstance(new Configuration());

job.setMapOutputKeyClass(YourOutputKeyClass1.class);
job.setMapOutputValueClass(YourOutputValueClass1.class);

job.setOutputKeyClass(YourOutputKeyClass2.class);
job.setOutputValueClass(YourOutputValueClass2.class);

マッパーのみのジョブ (リデューサーなし) がある場合の引用 (および私の経験) から結論づけると、setOutputKeyClass() は setMapOutputKeyClass() と同じ効果があります (setOutputValueClass() および setMapOutputValueClass() についても同じ)。

hadoop - Hadoop マップ削減プログラムでクラス キャスト例外が発生するのはなぜですか?

2 に答える 2

Related

Reference

hadoop - Hadoop マップ削減プログラムでクラスキャスト例外が発生するのはなぜですか?