Nutch についての私の理解では、Nutch が再クロールを行って、存在しなくなったドキュメントを取得しようとすると、404 が生成され、そのドキュメントのステータスが DB_GONE に設定されます。Nutch で再クロールすると 404 エラーが生成されますが、次のことを行うと:
readdb folder/crawldb - stats
ファイルが db_gone ではなく db_unfetched として表示されます。Solr インデックスを最新の状態に保つことができないため、これは大きな問題を引き起こしています
私の Solr または Nutch の設定を確認したい場合は、私のブログ ガイドに従ってください。