2

私はまだNutchに慣れています。bin/nutch crawl urls -dir crawl -depth 6 -topN 10以下を使用してテストクロールを実行しnutch.apache.org、solrにインデックスを付けることができました。bin/nutch crawl urls -solr http://<domain>:<port>/solr/core1/ -depth 4 -topN 7

自分のサイトでタイムアウトしたことは言うまでもありませんが、再度クロールしたり、他のサイト (wiki.apache.org など) をクロールしたりすることができないようです。Nutch ホーム ディレクトリ内のすべてのクロール ディレクトリを削除しましたが、まだ次のエラーが表示されます (クロールする URL がこれ以上ないことを示しています)。

<user>@<domain>:/usr/share/nutch$ sudo sh nutch-test.sh
solrUrl is not set, indexing will be skipped...
crawl started in: crawl 
rootUrlDir = urls
threads = 10
depth = 6
solrUrl=null
topN = 10
Injector: starting at 2013-07-03 15:56:47
Injector: crawlDb: crawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 1
Injector: total number of urls injected after normalization and filtering: 0
Injector: Merging injected urls into crawl db.
Injector: finished at 2013-07-03 15:56:50, elapsed: 00:00:03
Generator: starting at 2013-07-03 15:56:50
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: topN: 10
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: crawl

私のurls/seed.txtファイルがhttp://nutch.apache.org/入っています。

regex-urlfilter.txt+^http://([a-z0-9\-A-Z]*\.)*nutch.apache.org//([a-z0-9\-A-Z]*\/)*それを持っています。

-depthまた、さらにインデックスを作成することを指定するためにandを増やしましたtopNが、最初のクロール後に常にエラーが発生します。再びクロールするようにリセットするにはどうすればよいですか? Nutch のどこかに一掃する必要がある URL のキャッシュはありますか?

更新: 私たちのサイトの問題は、私が を使用wwwしていなかったことが原因のようwwwです。によってping、www.ourdomain.org は解決します。

しかし、これを必要なファイルに入れましたが、まだ問題があります。主に全体的に問題があるように見えますInjector: total number of urls rejected by filters: 1が、最初のクロールではありませんでした。なぜ、どのフィルターが URL を拒否しているのか、そうであってはなりません。

4

1 に答える 1