いくつかの巨大な検索エンジンの再クロール戦略がどのように機能するのか疑問に思っていました. たとえば、グーグルを考えてみましょう。Google が各 Web サイトの再クロールに動的間隔を使用していることはわかっています。Google の動的間隔に従って、10 分ごとに再クロールするサイトが 10 万あるとします。したがって、これらの 100000 サイトのクロール プロセスは 10 分未満で完了する必要があります。おそらく、次の 2 つの状況が考えられます。
1) Google ボットはこれらの各サイトの最初のページを取得し、このページの URL のリストを生成します。各 URL について、この URL が以前に取得されたかどうかを確認します。新しい場合は、新しいページを取得します。このプロセスは、クロールが終了するか、特定の深いしきい値まで続行されます。
2)Googleボットはすべてのページを再度取得します(更新されたかどうかに関係なく)
Google が最初の戦略を使用すると仮定すると、URL は同じでコンテンツが更新されたページがどのようにクロールされ、インデックスに登録されるのでしょうか? Google が 2 番目のページを使用するとしたら、これらすべてのページを 10 分以内に再クロールするにはどうすればよいでしょうか? 他のウェブページはどうですか?おそらく 60 億以上の Web ページが利用可能であり、これらすべてのページをタイムリーに再クロールする方法を教えてください。Hadoopインフラストラクチャでnutchやsolrなどの新しいテクノロジーを使用することは不可能だと本当に思います.
よろしく。