0

Hadoop マルチクラスター環境で Nutch を実行しています。

次のコマンドを使用して Nutch を実行すると、Hadoop がエラーをスローします。

$ bin/hadoop jar /home/nutch/nutch/runtime/deploy/nutch-1.5.1.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

エラー: スレッド「メイン」での例外 java.io.IOException: ファイルではありません: hdfs://master:54310/user/nutch/urls/crawldb at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java: 170) org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:515) で org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:753) で com.bdc.dod.dashboard.BDCQueryStatsViewer .run(BDCQueryStatsViewer.java:829) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at com.bdc.dod.dashboard.BDCQueryStatsViewer.main(BDCQueryStatsViewer.java:796) at sun. Sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) java.lang.reflect.Method.invoke(Method.java:585) で org.apache.hadoop.util.RunJar.main(RunJar.java:155) で

これを解決する可能な方法を試し、/local/conf パスに http.agent.name を設定するなどの問題をすべて修正しました。以前にインストールしたところ、スムーズでした。

誰でも解決策を提案できますか?

ちなみに、インストールと実行のためにリンクをたどりました。

4

1 に答える 1

0

この問題を解決できました。ローカル ファイル システムから HDFS 宛先ファイル システムにファイルをコピーする場合、以前は次のようになりました: bin/hadoop dfs -put ~/nutch/urls urls.

ただし、「bin/hadoop dfs -put ~/nutch/urls/* urls」にする必要があります。ここで、urls/* はサブディレクトリを許可します。

于 2012-11-23T01:40:49.253 に答える