solr - パラメータとセッションIDのNutchURL正規表現の正規化

Question

Nutchを使用すると、次のようなパラメータを持つURLのクロールに（ループなどの）リスクが伴います。

http://something.com?page=index

url-regexfilterはそのようなURLを無視します。このフィルターを外すと、トラブルの原因となるものを見落としている可能性がありますか？

score 1 · Accepted Answer

Nutchはクエリ文字列を削除するため、クエリ文字列を含むURLの解析に問題はありません。クエリ文字列が削除される可能性が最も高い理由は、一部のWebサイトがクエリ文字列に追跡情報を追加し、その追跡情報のみが異なる同一のリンクを繰り返しキューに入れることで、「ダンバー」クローラーを「無限ループ」に陥らせる可能性があるためです。クエリ文字列。

アップデート：

Nutchでは、crawl_urlfilter.txtとregex-urlfilter.txtの適切な行をコメントアウトして、「？」を含むURLのクロールを有効にすることで、クエリ文字列によるクロールをオンにできることがわかりました。それらの中で。

ただし、以下のコメントで述べたように、クエリ文字列には追跡情報が含まれている可能性があり、クローラーのURLで確認されるテストで問題が発生する可能性があります。最初の問題は、クエリ文字列の追跡情報だけが異なる重複が多数あるため、URLで表示されるデータベースが大きくなりすぎることです。2番目の問題は、データベースが大きすぎるため、URLで表示されるテストの実行が非常に遅くなることです。

したがって、クエリ文字列を許可するかどうかのオプションを変更するときは、この点に注意してください。

solr - パラメータとセッションIDのNutchURL正規表現の正規化

1 に答える 1

アップデート：

Related

Reference