apache - Nutchクロールで「無視された」URLのリストをログに記録する方法はありますか？

Question

Nutchを使用して、シードファイルで指定されたURLのリストを深さ100およびtopN 10,000でクロールして、完全なクロールを保証しています。また、regex-urlfilter http://rubular.com/r/oSkwqGHrriを使用して、パスに文字列が繰り返されているURLを無視しようとしています。

ただし、クロール中に無視されたURLを知りたいです。とにかく、クロール中にNutchによって「無視された」URLのリストをログに記録できますか？

score 1 · Accepted Answer

次のコマンドを使用して、リンクを見つけることができます

bin / nutch readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER -format csv

これにより、dump_folderにpart-00000ファイルが生成されます。このファイルには、それぞれURLリストとそのステータスが含まれます。

ステータスがdb_unfetchedのものは、クローラーによって無視されています。

1 に答える 1