0

Nutch についての私の理解では、Nutch が再クロールを行って、存在しなくなったドキュメントを取得しようとすると、404 が生成され、そのドキュメントのステータスが DB_GONE に設定されます。Nutch で再クロールすると 404 エラーが生成されますが、次のことを行うと:

readdb folder/crawldb - stats

ファイルが db_gone ではなく db_unfetched として表示されます。Solr インデックスを最新の状態に保つことができないため、これは大きな問題を引き起こしています

私の Solr または Nutch の設定を確認したい場合は、私のブログ ガイドに従ってください。

4

1 に答える 1

1

nutch 設定ファイルのdb.fetch.retry.maxプロパティを確認してください。デフォルトでは 3 に設定されています。再試行回数が最大になった後のみ、nutch はドキュメントをdb_goneとしてマークします。つまり、デフォルトでは、3 回目の再試行後、nutch はドキュメントにdb_goneのマークを付けますが、その前はステータスがdb_unfetchedのままになります。

于 2013-08-20T06:43:53.667 に答える