0

クローラーを実行すると、次のような静的フォルダーが表示されます。/cgi-bin、/images、/css などのポップアップがクローラー ジョブに表示される場合、それらをクロールから除外したい (それらがインデクサーに入るわけではありません)。クローラーでこれらの静的フォルダーで占有されないようにしますか? どんな助けでも大歓迎です。それらを除いて、パフォーマンスに役立ちますか? なんらかの理由でそれらを取得していることがわかります。Nutch クローラー 1.2、Lucene インデクサー。

4

1 に答える 1

0

ファイルに拒否ルールを追加しconf/regex-urlfilter.txtます。

-cgi-bin
-images
-css

これは、accept all ルールの前に追加する必要があることに注意してください。+.正規表現ファイルで。

于 2013-05-30T01:23:32.367 に答える