0

いくつかの巨大な検索エンジンの再クロール戦略がどのように機能するのか疑問に思っていました. たとえば、グーグルを考えてみましょう。Google が各 Web サイトの再クロールに動的間隔を使用していることはわかっています。Google の動的間隔に従って、10 分ごとに再クロールするサイトが 10 万あるとします。したがって、これらの 100000 サイトのクロール プロセスは 10 分未満で完了する必要があります。おそらく、次の 2 つの状況が考えられます。

1) Google ボットはこれらの各サイトの最初のページを取得し、このページの URL のリストを生成します。各 URL について、この URL が以前に取得されたかどうかを確認します。新しい場合は、新しいページを取得します。このプロセスは、クロールが終了するか、特定の深いしきい値まで続行されます。

2)Googleボットはすべてのページを再度取得します(更新されたかどうかに関係なく)

Google が最初の戦略を使用すると仮定すると、URL は同じでコンテンツが更新されたページがどのようにクロールされ、インデックスに登録されるのでしょうか? Google が 2 番目のページを使用するとしたら、これらすべてのページを 10 分以内に再クロールするにはどうすればよいでしょうか? 他のウェブページはどうですか?おそらく 60 億以上の Web ページが利用可能であり、これらすべてのページをタイムリーに再クロールする方法を教えてください。Hadoopインフラストラクチャでnutchやsolrなどの新しいテクノロジーを使用することは不可能だと本当に思います.

よろしく。

4

1 に答える 1

1

私たちは膨大な数のコンピューターを使用して、ウェブ上の何十億ものページを取得 (または「クロール」) しています。Googlebot はアルゴリズム プロセスを使用します。コンピュータ プログラムが、クロールするサイト、クロールする頻度、および各サイトから取得するページ数を決定します。

Googlebot のクロール プロセスは、以前のクロール プロセスから生成され、ウェブマスターから提供されたサイトマップ データで補強されたウェブページ URL のリストから始まります。Googlebot がこれらの各 Web サイトにアクセスすると、各ページのリンク (SRC と HREF) が検出され、クロールするページのリストに追加されます。新しいサイト、既存のサイトへの変更、無効なリンクが記録され、Google インデックスの更新に使用されます。

https://support.google.com/webmasters/answer/182072?hl=ja

まず、なぜ 10 分で仕事を終わらせなければならないのでしょうか?

最初の段落と同様に、すべてのサイトが同じ間隔で再クロールされるわけではありません。彼らはこれを決定するアルゴリズムを持っています。

そのため、googlebot はすべてのページを再度フェッチしますが、その間隔は大きく異なります。あなたの質問のオプション(2)ですが、アルゴリズムが追加されています。

スケーラビリティのために Hadoop インフラストラクチャを使用します。

于 2014-06-13T05:43:00.153 に答える