ステータス 3 (db_gone) のすべての URL の Nutch crawldb のダンプを取得するにはどうすればよいですか。私が使用している Nutch のバージョンは 1.4 です。
wiki見たけどやり方わからん
Nutch 1.4 の CrawlDbReader は、ドキュメントのステータスに基づいて、crawldb のダンプを生成しません。Nutch の 1.5 以降のバージョンでは、crawldb の読み取り中にドキュメントのステータスを指定でき、readdb は指定されたステータスのドキュメントのダンプを生成します。
[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone
Nutch 1.4 で同じことをしたい場合は、org.apache.nutch.crawl.CrawlDbReader
クラスを変更する必要があります。