hadoop - Google クローラーの再クロール戦略

Question

いくつかの巨大な検索エンジンの再クロール戦略がどのように機能するのか疑問に思っていました. たとえば、グーグルを考えてみましょう。Google が各 Web サイトの再クロールに動的間隔を使用していることはわかっています。Google の動的間隔に従って、10 分ごとに再クロールするサイトが 10 万あるとします。したがって、これらの 100000 サイトのクロールプロセスは 10 分未満で完了する必要があります。おそらく、次の 2 つの状況が考えられます。

1) Google ボットはこれらの各サイトの最初のページを取得し、このページの URL のリストを生成します。各 URL について、この URL が以前に取得されたかどうかを確認します。新しい場合は、新しいページを取得します。このプロセスは、クロールが終了するか、特定の深いしきい値まで続行されます。

2）Googleボットはすべてのページを再度取得します（更新されたかどうかに関係なく）

Google が最初の戦略を使用すると仮定すると、URL は同じでコンテンツが更新されたページがどのようにクロールされ、インデックスに登録されるのでしょうか? Google が 2 番目のページを使用するとしたら、これらすべてのページを 10 分以内に再クロールするにはどうすればよいでしょうか? 他のウェブページはどうですか？おそらく 60 億以上の Web ページが利用可能であり、これらすべてのページをタイムリーに再クロールする方法を教えてください。Hadoopインフラストラクチャでnutchやsolrなどの新しいテクノロジーを使用することは不可能だと本当に思います.

よろしく。

score 1 · Accepted Answer

私たちは膨大な数のコンピューターを使用して、ウェブ上の何十億ものページを取得 (または「クロール」) しています。Googlebot はアルゴリズムプロセスを使用します。コンピュータプログラムが、クロールするサイト、クロールする頻度、および各サイトから取得するページ数を決定します。

Googlebot のクロールプロセスは、以前のクロールプロセスから生成され、ウェブマスターから提供されたサイトマップデータで補強されたウェブページ URL のリストから始まります。Googlebot がこれらの各 Web サイトにアクセスすると、各ページのリンク (SRC と HREF) が検出され、クロールするページのリストに追加されます。新しいサイト、既存のサイトへの変更、無効なリンクが記録され、Google インデックスの更新に使用されます。

https://support.google.com/webmasters/answer/182072?hl=ja

まず、なぜ 10 分で仕事を終わらせなければならないのでしょうか?

最初の段落と同様に、すべてのサイトが同じ間隔で再クロールされるわけではありません。彼らはこれを決定するアルゴリズムを持っています。

そのため、googlebot はすべてのページを再度フェッチしますが、その間隔は大きく異なります。あなたの質問のオプション（2）ですが、アルゴリズムが追加されています。

スケーラビリティのために Hadoop インフラストラクチャを使用します。

hadoop - Google クローラーの再クロール戦略

1 に答える 1

Related

Reference