0

私のホームページには、ページ a.html と b.html へのリンクがあります。これらの 2 ページと同じディレクトリに、他のページからリンクされていないページc.htmld.htmlがあります。

私の質問は、ディレクトリにあるという理由だけで、 c.html と d.html もインデックスに登録しますか? それとも、ホームページから始まるリンクのみをたどり、ホームページとページ a および b のみをインデックスに登録しますか? ありがとう。

4

2 に答える 2

2

Webクローラーはリンクについてしか知らないため、c.htmlページとd.htmlページへのリンクを世界中に持っている人がいない場合、クローラーがそれらを見つける可能性は0にかなり近くなります。

クローラーがそれらを見つける方法を見てみましょう。

  1. ホームページはa.htmlとb.htmlのみを指しますが、これらのページにc / d.htmlへのリンクがある場合、クローラーは最終的にそれらを指します。
  2. 上記が当てはまらないが、誰かにc / d.htmlへのリンクを与え、それらのリンクをオンラインのWebサイトに投稿した場合、クローラーは最終的にそれらを見つけます。
  3. サイトマップがある場合、クローラーは最終的にそれらを見つける可能性があります。

これは、クローラーが「良好」であり、c/d.htmlページへのリンクを含むページに到達するのに十分な時間クロールしていることを前提としています。

于 2012-04-29T06:30:20.507 に答える
2

ほとんどの Web クローラー (特に Google のもの) はプロプライエタリ プログラムであるため、それらがどのように詳細に動作するかを確実に知ることはできません。

また、Web クローラーは細部が非常に複雑です。Google のクローラー (およびインデクサー) は、700 メガバイトを超えるバイナリ実行可能ファイルであると噂されています (GCC サミットで、Google の人々は、そのサイズのプログラムをコンパイルしていると言っています。私はそれが彼らのクローラーであると推測しています)。

理論上、クローラーはリンクをたどります。しかし、あなたはそれらをマスターしていません。たとえば、一部のパブリック メール アーカイブ (Google の場合は Gmail アカウントでさえも) はc.html 、メインの Web ページがそれを指していなくても、あなたの ... を指している場合があります。

于 2012-04-29T06:20:51.837 に答える