Nutchを使用して、シードファイルで指定されたURLのリストを深さ100およびtopN 10,000でクロールして、完全なクロールを保証しています。また、regex-urlfilter http://rubular.com/r/oSkwqGHrriを使用して、パスに文字列が繰り返されているURLを無視しようとしています。
ただし、クロール中に無視されたURLを知りたいです。とにかく、クロール中にNutchによって「無視された」URLのリストをログに記録できますか?
Nutchを使用して、シードファイルで指定されたURLのリストを深さ100およびtopN 10,000でクロールして、完全なクロールを保証しています。また、regex-urlfilter http://rubular.com/r/oSkwqGHrriを使用して、パスに文字列が繰り返されているURLを無視しようとしています。
ただし、クロール中に無視されたURLを知りたいです。とにかく、クロール中にNutchによって「無視された」URLのリストをログに記録できますか?