Eclipse ランチャーを使用して org.apache.nutch.crawl.Crawler クラスを実行しようとすると、次の例外が発生します。私はこれについて何の考えも持っていません。
java.lang.NullPointerException
at org.apache.avro.util.Utf8.<init>(Utf8.java:37)
at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100)
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:566)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:408)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
13/07/30 21:14:26 INFO mapred.JobClient: map 100% reduce 0%
13/07/30 21:14:26 INFO mapred.JobClient: Job complete: job_local_0002
13/07/30 21:14:26 INFO mapred.JobClient: Counters: 12
13/07/30 21:14:26 INFO mapred.JobClient: FileSystemCounters
13/07/30 21:14:26 INFO mapred.JobClient: FILE_BYTES_READ=47606
13/07/30 21:14:26 INFO mapred.JobClient: FILE_BYTES_WRITTEN=97164
13/07/30 21:14:26 INFO mapred.JobClient: Map-Reduce Framework
13/07/30 21:14:26 INFO mapred.JobClient: Reduce input groups=0
13/07/30 21:14:26 INFO mapred.JobClient: Combine output records=0
13/07/30 21:14:26 INFO mapred.JobClient: Map input records=0
13/07/30 21:14:26 INFO mapred.JobClient: Reduce shuffle bytes=0
13/07/30 21:14:26 INFO mapred.JobClient: Reduce output records=0
13/07/30 21:14:26 INFO mapred.JobClient: Spilled Records=0
13/07/30 21:14:26 INFO mapred.JobClient: Map output bytes=0
13/07/30 21:14:26 INFO mapred.JobClient: Combine input records=0
13/07/30 21:14:26 INFO mapred.JobClient: Map output records=0
13/07/30 21:14:26 INFO mapred.JobClient: Reduce input records=0
Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=null
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
少しグーグルをやった後、これに出くわしました( $NutchHome/src/bin/crawlスクリプトを使用する代わりに、言及されたクラスはNutch2.xで非推奨です )。Cygwin ターミナルからクロール スクリプトを実行しようとしましたが、うまくいきませんでした。端末からのエラーのスクリーン ショット。