1

Googlebot(Googlebot / 2.1)は、新しく追加されたサイトのURLを、URLの長さに対応する順序でクロールしているように見えます。

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

私はこの正確なパターンを複数(> 10)の完全に独立したサイトで見たので、順序は単なる偶然の一致ではありません。

混乱を避けるために、クロールの順序は、Googlebotの動作の非常に小さな詳細のように見える場合があります。はい、それは実際には小さな詳細ですが、それでも、Googlebotがネットをクロールする方法の技術的な詳細を理解したいと思います。そして、クロールの順序はそのような詳細の1つです。この知識が「役に立たない」と信じている場合、それはまったく問題ありませんが、あなたの貢献はあまり役に立たないので、このページを答えで汚さないでください。役に立たない回答は、SOハウスのルールに従って却下されます。

私の質問は次のとおりです。

  1. あなた(そうです、あなたは個人的に-あなたが読んだブログなどではありません)このクロールパターンを観察しましたか?
  2. クロールパターンはGoogleによって公式に文書化されていますか?
  3. このクロールパターンを選択した理由は何でしょうか。

3つすべての質問に答えてみてください。

4

5 に答える 5

3

Web開発の観点からは、この非ランダムなクロールパターンは予期しない結果をもたらす可能性があります。1つの特定のURL長が1つのタイプの特に重いトランザクションに対応する場合の非ランダムなロードパターンなど。

検索エンジンボットがアクセスできるトランザクションページがある場合、私はそれを失敗と呼びます。検索エンジンボットは、トランザクションページにアクセスできないようにする必要があります。robots.txtまたはメタロボットのページでインデックスを作成することを禁止します。

したがって、3つの質問は役に立たない-グーグルは彼らが使用するアルゴリズムを文書化していない。さらに、基本的には気にせず、できるだけ多くのページをインデックスに登録したいので、クロールの順序を知る(または操作しようとする)ことはまったく役に立ちません(robots.txtで禁止されているページを除く)。

于 2009-11-03T11:23:42.707 に答える
2

私はこのようなことは何も経験していません(ただし、どのURLがいつインデックスに登録されるかを正確に追跡することはありません)。私の経験では、Googleは最も人気があると見なしたURLを最初にインデックスに登録します。たとえば、上位のページまたは多数のページからのリンクを検出した場合、同じサイトの他のページよりも先にそのリンクをクロールします。

私があなたのケースについて考えることができる唯一の理由は、Googlebotがより長いURLが「より深い」ページに等しいと想定しているが、フォルダ構造を無視しているということです。

于 2009-11-03T17:16:05.153 に答える
1

3:たぶん、ゴーグルボットはURL文字列をツリーデータ構造に格納します。最短の最初のURLはツリールートであるため、次のURL「末尾」はツリーリーフとしてのみ追加されます。これは、各URLを個別の文字列として保存するよりも最適です(たとえば、/ lang_english / / lang_italian / / lang_german /の場合)。

于 2010-09-17T07:34:55.353 に答える
1
  1. いいえ
  2. いいえ
  3. クロールパターンが実際に重要であるとは思わない。Googleがページを見つけるシーケンスがコンテンツにとって重要である場合、または間違った方法でアクセスするとエラーが発生する場合は、サイト構造(またはrobots-metatags / robots.txt)に重大な問題があります。

私のプロジェクトで観察できたのは、Googleはボットがページを見つけるのと同じ方法でページをクロールする傾向があるということでした。そして、これはあなたがそれらをグーグルに「提示する」方法に依存します(サイトへのリンク、サイトマップ、RSSフィードなどによって)

したがって、URLの長さについてはあまり気にせず、目立つように定期的にクロールされるページに、見つけたいページへのリンクを配置します。

于 2009-11-03T11:34:06.363 に答える
0
  1. いいえ、していません。
  2. いいえ。
  3. この振る舞いは本当に珍しいように見えますが、それは這うパターンではなく、偶然の一致の結果である可能性があると思います。残念ながら、アサーションを作成する前に、より多くのデータ(実際のアクセスログなど)が必要になります。考えられる原因:1。URLがサイトマップにリストされていますか?2. URLはアルファベット順に並べられていますか?3. URLは通常どの順序でページに表示されますか?
于 2009-11-03T11:14:12.347 に答える