Hadoop マルチクラスター環境で Nutch を実行しています。
次のコマンドを使用して Nutch を実行すると、Hadoop がエラーをスローします。
$ bin/hadoop jar /home/nutch/nutch/runtime/deploy/nutch-1.5.1.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5
エラー: スレッド「メイン」での例外 java.io.IOException: ファイルではありません: hdfs://master:54310/user/nutch/urls/crawldb at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java: 170) org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:515) で org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:753) で com.bdc.dod.dashboard.BDCQueryStatsViewer .run(BDCQueryStatsViewer.java:829) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.bdc.dod.dashboard.BDCQueryStatsViewer.main(BDCQueryStatsViewer.java:796) at sun. Sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) java.lang.reflect.Method.invoke(Method.java:585) で org.apache.hadoop.util.RunJar.main(RunJar.java:155) で
これを解決する可能な方法を試し、/local/conf パスに http.agent.name を設定するなどの問題をすべて修正しました。以前にインストールしたところ、スムーズでした。
誰でも解決策を提案できますか?
ちなみに、インストールと実行のためにリンクをたどりました。