私はナットでかなり新しいので、我慢してください。テスト クロール中に IOException が発生しました。私は、hadoop 0.20.2 で Nutch 1.6 を使用しています (ファイル アクセス権の設定で、Windows との互換性のためにこのバージョンを選択しました)。
私は日食を通してナットを実行しています。このガイドに従って、SVN からナットをインポートしました: http://wiki.apache.org/nutch/RunNutchInEclipse
私のクローラーのコードは、この Web サイトからのものです: http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/
システム例外ログは次のとおりです。
solrUrl が設定されていないため、インデックス作成はスキップされます...
クロール開始場所: クロール
rootUrlDir
=
urls
スレッド = 1
深さ = 1
solrUrl=null
topN = 1 crawl/crawldb
インジェクター: urlDir: urls
インジェクター: 注入された URL をクロール データベース エントリに変換します。
java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:
at org.apache.nutch.crawl.Crawl.run(Crawl.java:
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)
Crawl.java の #Injector.inject() の前にパスを含むこれらの呼び出しが表示されます
Path crawlDb = new Path(dir + "/crawldb");
Path linkDb = new Path(dir + "/linkdb");
Path segments = new Path(dir + "/segments");
Path indexes = new Path(dir + "/indexes");
Path index = new Path(dir + "/index");
現在、私のEclipseプロジェクトにはフォルダcrawldb、linkdb、segmentsが含まれていません...私の問題は、クロールに必要なすべてのファイルを設定していないことだと思います。Nutch-site.xml、regex-urlfilter.txt、および urls/seed.txtのみを設定しました。この問題に関するアドバイスは非常に役立ちます。ありがとう!