calendar - 意味のないカレンダー Web ページのクロールを回避するように Nutch を構成する方法

Question

Nutch を使用して Web サイトのインデックスを作成しています。Nutch が http:// * ** * ** /category/events/2015-11 などのジャンク Web ページをクロールしていることに気付きました。このウェブページは、2015 年 11 月に発生したイベントに関するものです。これは、私にとってまったくナンセンスです。Nutch がそのような Web ページをインテリジェントにスキップできるかどうかを知りたいです。これを回避するために正規表現を使用できると主張されるかもしれません。ただし、カレンダー Web ページの命名パターンは常に同じではないため、これに完全な正規表現を記述する方法はありません。Heritrix (インターネットアーカイブクローラー) には、無意味なカレンダー Web ページのクロールを回避する機能があることは知っています。誰かがこの問題を解決しますか?

score 1 · Accepted Answer

これを行うには、正規表現 URL フィルタリング以外に方法はありません。クロールされたコンテンツに望ましくないページが表示されるたびに、正規表現ファイルに新しいパターンを追加し続けることができます。

calendar - 意味のないカレンダー Web ページのクロールを回避するように Nutch を構成する方法

1 に答える 1

Related

Reference