Nutch を使用して Web サイトのインデックスを作成しています。Nutch が http:// * ** * ** /category/events/2015-11 などのジャンク Web ページをクロールしていることに気付きました。このウェブページは、2015 年 11 月に発生したイベントに関するものです。これは、私にとってまったくナンセンスです。Nutch がそのような Web ページをインテリジェントにスキップできるかどうかを知りたいです。これを回避するために正規表現を使用できると主張されるかもしれません。ただし、カレンダー Web ページの命名パターンは常に同じではないため、これに完全な正規表現を記述する方法はありません。Heritrix (インターネット アーカイブ クローラー) には、無意味なカレンダー Web ページのクロールを回避する機能があることは知っています。誰かがこの問題を解決しますか?
質問する
138 次