web-crawler - Web クローラーは、クロールを行うためにホームページからのリンクのみに依存していますか?

Question

私のホームページには、ページ a.html と b.html へのリンクがあります。これらの 2 ページと同じディレクトリに、他のページからリンクされていないページc.htmlとd.htmlがあります。

私の質問は、ディレクトリにあるという理由だけで、 c.html と d.html もインデックスに登録しますか? それとも、ホームページから始まるリンクのみをたどり、ホームページとページ a および b のみをインデックスに登録しますか? ありがとう。

score 2 · Accepted Answer

Webクローラーはリンクについてしか知らないため、c.htmlページとd.htmlページへのリンクを世界中に持っている人がいない場合、クローラーがそれらを見つける可能性は0にかなり近くなります。

クローラーがそれらを見つける方法を見てみましょう。

ホームページはa.htmlとb.htmlのみを指しますが、これらのページにc / d.htmlへのリンクがある場合、クローラーは最終的にそれらを指します。
上記が当てはまらないが、誰かにc / d.htmlへのリンクを与え、それらのリンクをオンラインのWebサイトに投稿した場合、クローラーは最終的にそれらを見つけます。
サイトマップがある場合、クローラーは最終的にそれらを見つける可能性があります。

これは、クローラーが「良好」であり、c/d.htmlページへのリンクを含むページに到達するのに十分な時間クロールしていることを前提としています。

score 2 · Accepted Answer

ほとんどの Web クローラー (特に Google のもの) はプロプライエタリプログラムであるため、それらがどのように詳細に動作するかを確実に知ることはできません。

また、Web クローラーは細部が非常に複雑です。Google のクローラー (およびインデクサー) は、700 メガバイトを超えるバイナリ実行可能ファイルであると噂されています (GCC サミットで、Google の人々は、そのサイズのプログラムをコンパイルしていると言っています。私はそれが彼らのクローラーであると推測しています)。

理論上、クローラーはリンクをたどります。しかし、あなたはそれらをマスターしていません。たとえば、一部のパブリックメールアーカイブ (Google の場合は Gmail アカウントでさえも) はc.html 、メインの Web ページがそれを指していなくても、あなたの ... を指している場合があります。

web-crawler - Web クローラーは、クロールを行うためにホームページからのリンクのみに依存していますか?

2 に答える 2

Related

Reference