2 つの要件があります。
1 つ目は、Nutch に、html に特定の単語を含むページのみをインデックスに登録してもらいたいということです。たとえば、html に "wounderful" という単語を含むページのみをインデックスに登録したいとします。2 つ目は、nutch にサイトの特定の URL をインデックスに登録してもらいたいということです。たとえば、「mywebsite.com/XXXX/ABC/XXXX」または「mywebsite.com/grow.php/ABC/XXXX」に類似した URL をインデックスに登録するには、nutch が必要です。ここで、「XXXX」は任意の長さの任意の単語です。
これは私のseed.txtファイルの内容です
http://mysite.org/
これは私の regex-urlfilter.txt の内容です
+^http://mysite.org/work/.*?/text/
コメントしました
#+.
私はまだエラーを下回っています
crawl started in: crawl
rootUrlDir = bin/urls
threads = 10
depth = 3
solrUrl=http://localhost:8983/solr/
topN = 5
Injector: starting at 2013-07-09 11:05:51
Injector: crawlDb: crawl/crawldb
Injector: urlDir: bin/urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 1
Injector: total number of urls injected after normalization and filtering: 0
Injector: Merging injected urls into crawl db.
Injector: finished at 2013-07-09 11:06:08, elapsed: 00:00:17
Generator: starting at 2013-07-09 11:06:08
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: topN: 5
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: crawl