たとえば、1000 の Web サイトをクロールしています。一部の Web サイトで readdb を実行すると、db_redirect_temp と db_redirect_moved が表示されます。http.redirect.max=10 を設定すると、Web サイトごとにこの値になるか、クロールする Web サイト全体で 10 回のリダイレクトしか処理されません。
1 に答える
1
http.redirect.maxは次のように定義されます。
ページをフェッチしようとするときにフェッチャーがたどるリダイレクトの最大数。負または 0 に設定すると、fetcher はリダイレクトされた URL をすぐにはたどらず、後で取得するために記録します。
この数は、1 つの Webページのリダイレクトに適用されます。10 は非常に寛大な制限です。リダイレクト ターゲットが後のフェッチ サイクルの 1 つで試行されることを考えると、ほとんどの場合 3 で十分です。リダイレクト ソースは常に CrawlDb に db_redir_perm または db_redir_temp として記録されることに注意してください。
于 2020-10-16T18:34:13.963 に答える