Nutch 1.6「bin/crawl」で提供されているスクリプトを実行しようとしています。これは、サイトを離れてスパイダーするために必要な以下のすべての手動手順を実行します。
これらの手順を手動で実行すると、すべてが正常に機能し、ページが期待どおりにインデックス化されます (1 ページのみですが、これを調べます)
URL @ seed/urls.txt を含む作成されたテキスト ファイル
bin/nutch inject crawl_test/crawldb seeds/
bin/nutch generate crawl_test/crawldb crawl_test/segments
export SEGMENT=crawl_test/segments/`ls -tr crawl_test/segments|tail -1`
bin/nutch fetch $SEGMENT -noParsing
bin/nutch parse $SEGMENT
bin/nutch updatedb crawl_test/crawldb $SEGMENT -filter -normalize
bin/nutch invertlinks crawl_test/linkdb -dir crawl_test/segments
bin/nutch solrindex http://dev:8080/solr/ crawl_test/crawldb -linkdb crawl_test/linkdb crawl_test/segments/*
bin/crawl スクリプトでこのエラーが発生します...
Indexing 20130412115759 on SOLR index -> someurl:8080/solr/ SolrIndexer: starting at 2013-04-12 11:58:47 SolrIndexer: deleting gone documents: false SolrIndexer: URL filtering: false SolrIndexer: URL normalizing: false org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/nutch/20130412115759/crawl_fetch Input path does not exist: file:/opt/nutch/20130412115759/crawl_parse Input path does not exist: file:/opt/nutch/20130412115759/parse_data Input path does not exist: file:/opt/nutch/20130412115759/parse_text
このスクリプトが機能しない理由は何ですか? 探しているパスが存在せず、なぜそこを探しているのかわからないため、構成ではなくスクリプト自体のエラーであるに違いないと思います。