0

Nutch を使用して Web サイトのインデックスを作成しています。Nutch が http:// * ** * ** /category/events/2015-11 などのジャンク Web ページをクロールしていることに気付きました。このウェブページは、2015 年 11 月に発生したイベントに関するものです。これは、私にとってまったくナンセンスです。Nutch がそのような Web ページをインテリジェントにスキップできるかどうかを知りたいです。これを回避するために正規表現を使用できると主張されるかもしれません。ただし、カレンダー Web ページの命名パターンは常に同じではないため、これに完全な正規表現を記述する方法はありません。Heritrix (インターネット アーカイブ クローラー) には、無意味なカレンダー Web ページのクロールを回避する機能があることは知っています。誰かがこの問題を解決しますか?

4

1 に答える 1

1

これを行うには、正規表現 URL フィルタリング以外に方法はありません。クロールされたコンテンツに望ましくないページが表示されるたびに、正規表現ファイルに新しいパターンを追加し続けることができます。

于 2012-05-06T01:23:17.870 に答える