0

Nutchを使用して、シードファイルで指定されたURLのリストを深さ100およびtopN 10,000でクロールして、完全なクロールを保証しています。また、regex-urlfilter http://rubular.com/r/oSkwqGHrriを使用して、パスに文字列が繰り返されているURLを無視しようとしています。

ただし、クロール中に無視されたURLを知りたいです。とにかく、クロール中にNutchによって「無視された」URLのリストをログに記録できますか?

4

1 に答える 1

1

次のコマンドを使用して、リンクを見つけることができます

bin / nutch readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER -format csv

これにより、dump_folderにpart-00000ファイルが生成されます。このファイルには、それぞれURLリストとそのステータスが含まれます。

ステータスがdb_unfetchedのものは、クローラーによって無視されています。

于 2013-03-24T11:21:41.673 に答える