eclipse - #Crawl.run() 中の IOException -> #JobClient.runJob()

Question

私はナットでかなり新しいので、我慢してください。テストクロール中に IOException が発生しました。私は、hadoop 0.20.2 で Nutch 1.6 を使用しています (ファイルアクセス権の設定で、Windows との互換性のためにこのバージョンを選択しました)。

私は日食を通してナットを実行しています。このガイドに従って、SVN からナットをインポートしました: http://wiki.apache.org/nutch/RunNutchInEclipse

私のクローラーのコードは、この Web サイトからのものです: http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/

システム例外ログは次のとおりです。

solrUrl が設定されていないため、インデックス作成はスキップされます...
クロール開始場所: クロール rootUrlDir =
urls
スレッド = 1
深さ = 1
solrUrl=null
topN = 1 crawl/crawldb インジェクター: urlDir: urls インジェクター: 注入された URL をクロールデータベースエントリに変換します。

java.io.IOException: Job failed! 
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) 
    at org.apache.nutch.crawl.Injector.inject(Injector.java:
    at org.apache.nutch.crawl.Crawl.run(Crawl.java:
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:
    at rjpb.sp.crawler.CrawlerTest.main(CrawlerTest.java:51)

Crawl.java の #Injector.inject() の前にパスを含むこれらの呼び出しが表示されます

Path crawlDb = new Path(dir + "/crawldb"); 
Path linkDb = new Path(dir + "/linkdb"); 
Path segments = new Path(dir + "/segments"); 
Path indexes = new Path(dir + "/indexes"); 
Path index = new Path(dir + "/index");

現在、私のEclipseプロジェクトにはフォルダcrawldb、linkdb、segmentsが含まれていません...私の問題は、クロールに必要なすべてのファイルを設定していないことだと思います。Nutch-site.xml、regex-urlfilter.txt、および urls/seed.txtのみを設定しました。この問題に関するアドバイスは非常に役立ちます。ありがとう！

eclipse - #Crawl.run() 中の IOException -> #JobClient.runJob()

1 に答える 1

Related

Reference