私は現在、自分の小さな Web クローラーに取り組んでいて、疑問に思っていました...
Web クローラーが同じサイトを再度訪問する適切な間隔はどれくらいですか?
1日1回見直す必要はありますか?1時間に1回?私は本当に知りません...この問題について誰か経験がありますか?おそらく誰かが私を正しい方向に向けることができますか?
私は現在、自分の小さな Web クローラーに取り組んでいて、疑問に思っていました...
Web クローラーが同じサイトを再度訪問する適切な間隔はどれくらいですか?
1日1回見直す必要はありますか?1時間に1回?私は本当に知りません...この問題について誰か経験がありますか?おそらく誰かが私を正しい方向に向けることができますか?
クローラーの訪問はオーガニックである必要があると思います。
私はリストを週に 1 回クロールすることから始め
、サイトのコンテンツが変更されたら、そのコンテンツを週に 2 回クロールするように設定します。
アルゴリズムは、1 回限りの編集と頻繁なサイト変更の違いを認識できるほどスマートである必要があります。
また、Robots.txt に注意を払うことも忘れないでください。これは、クロールで最初にヒットするページであり、何よりもその内容を尊重する必要があります。
クロールしているサイトと結果に対して何をしているかによって異なります。
かなり頻繁な訪問率に反対しない人もいますが、たとえば、毎日 1 回の訪問に制限する人もいます。
多くのサイトがコンテンツを保護することに熱心であるため (Murdoch と News International が Google を非難し、Times (UK) をペイウォールの背後に置いているのを目撃しています)、クローラーに不信感を抱いています。
いくつかのサイトのみをクロールする場合は、サイトの所有者に連絡して、何をしたいのかを説明し、彼らの返答を確認することをお勧めします. 彼らが返信する場合は、彼らの希望を尊重し、常にファイルに従いrobots.txt
ます。
スパイダーしているサイトやその程度によっては、1 時間でも失礼な場合があります。演習としてこれを行っていると思いますので、世界を救い、巨大な負荷を処理するように構築されたサイトに制限し、最初に HTTP ヘッダーのみを取得して、ページを取得する必要があるかどうかを確認してください.
さらに礼儀正しく、限定されたセットを最初に でスパイダーしwget
、それをローカルに保存して、キャッシュをクロールすることです。
演習としてこれを行っていない場合は、実行する理由はありません。これは実行に失敗したためであり、interwebz は別の手順を必要としません。