0

Apache Nutch を使用して Web サイトをクロールしています。クロール中、 http ://www.youtube.com/..so on...、http: //www.twitter.com/so on..などの複数のURLパターンをnutchに無視させたい.

特定の URL をクロールするように regex-urlfilter.txt ファイルを構成する方法を知っています。

しかし、特定の URL パターンを無視するように nutch を設定する方法がわかりません。

4

1 に答える 1

0

次の URL をたどると、多くの有用な例が見つかりました

https://scm.thm.de/pharus/nutch-config/blobs/66fba7d3dc015974b5c194e7ba49da60fe3c3199/Nutch-Config/conf/regex-urlfilter.txt

于 2013-07-10T13:40:13.257 に答える