私のホームページには、ページ a.html と b.html へのリンクがあります。これらの 2 ページと同じディレクトリに、他のページからリンクされていないページc.htmlとd.htmlがあります。
私の質問は、ディレクトリにあるという理由だけで、 c.html と d.html もインデックスに登録しますか? それとも、ホームページから始まるリンクのみをたどり、ホームページとページ a および b のみをインデックスに登録しますか? ありがとう。
私のホームページには、ページ a.html と b.html へのリンクがあります。これらの 2 ページと同じディレクトリに、他のページからリンクされていないページc.htmlとd.htmlがあります。
私の質問は、ディレクトリにあるという理由だけで、 c.html と d.html もインデックスに登録しますか? それとも、ホームページから始まるリンクのみをたどり、ホームページとページ a および b のみをインデックスに登録しますか? ありがとう。
Webクローラーはリンクについてしか知らないため、c.htmlページとd.htmlページへのリンクを世界中に持っている人がいない場合、クローラーがそれらを見つける可能性は0にかなり近くなります。
クローラーがそれらを見つける方法を見てみましょう。
これは、クローラーが「良好」であり、c/d.htmlページへのリンクを含むページに到達するのに十分な時間クロールしていることを前提としています。
ほとんどの Web クローラー (特に Google のもの) はプロプライエタリ プログラムであるため、それらがどのように詳細に動作するかを確実に知ることはできません。
また、Web クローラーは細部が非常に複雑です。Google のクローラー (およびインデクサー) は、700 メガバイトを超えるバイナリ実行可能ファイルであると噂されています (GCC サミットで、Google の人々は、そのサイズのプログラムをコンパイルしていると言っています。私はそれが彼らのクローラーであると推測しています)。
理論上、クローラーはリンクをたどります。しかし、あなたはそれらをマスターしていません。たとえば、一部のパブリック メール アーカイブ (Google の場合は Gmail アカウントでさえも) はc.html
、メインの Web ページがそれを指していなくても、あなたの ... を指している場合があります。