0

Nutch を使用して複数のサイトをクロールしようとしています。私のseed.txtは次のようになります:

http://1.a.b/
http://2.a.b/

私の regex-urlfilter.txt は次のようになります。

# skip file: ftp: and mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/

# accept anything else
#+.
+^http://1.a.b/*
+^http://2.a.b/*

最後の部分で次のことを試しました。

+^http://([a-z0-9]*\.)*a.b/*

クロールされる唯一のサイトは最初のサイトです。他のすべての構成はデフォルトです。

次のコマンドを実行します。

bin/nutch crawl urls -solr http://localhost:8984/solr/ -dir crawl -depth 10 -topN 10

何か案は?!

ありがとうございました!

4

1 に答える 1

1

regex-urlfilter.txt でこれを試してください:

古い設定:

# accept anything else
#+.
+^http://1.a.b/*
+^http://2.a.b/*

新しい設定:

# accept anything else
+.
于 2013-02-21T04:55:08.990 に答える