こんにちは、nutch 1.5.1 を使用して次のパラメータで Web サイトをクロールしました。-depth=20 および -topN=800。現在、ステータスが db_unfetched のかなり多数の URL (約 6K) があります。私は2つのことを特定したい:
彼らのステータスが取得されていないのはなぜですか。クロール中に URL が無視された理由を追跡する方法はありますか。URL フィルターを確認しました (それらはすべて配置されています)。
各 URL が Nutch によってどの程度の深さで発見されたかを調べることはできますか? フェッチされていないすべてのページ (これらのページにはすべてコンテンツがあるため、404 エラーはありません) が深さ 20 で見つかったのか、それともその深さに達する前に一部のページが無視されたのか。
その Web サイトを再度クロールする余裕はありません。URL のスコアリングをトレースバックし、その深さを特定するために使用できるコマンドはありますか。