search-engine - 検索エンジンはどこからクロールを開始しますか?

Question

検索エンジンボットは何を出発点として使用しますか? それは DNS ルックアップですか、それとも既知のサイトの固定リストから始めますか? 推測や提案はありますか？

score 8 · Accepted Answer

あなたの質問は、次の 2 つの方法で解釈できます。

一般的に検索エンジンがどこからクロールを開始するのか、または特定のサイトのクロールを開始する場所を尋ねているのでしょうか?

大企業がどのように働いているかはわかりません。しかし、独自の検索エンジンを作成する場合は、おそらく人気のあるポータルサイトに種をまくでしょう。 DMOZ.orgは人気のある出発点のようです。大企業は私たちよりもはるかに多くのデータを持っているため、さまざまな場所からクロールを開始する可能性があります。

SE が特定のサイトのクロールを開始する場所を尋ねている場合は、おそらく、どのページが最も人気があるかに大きく関係しています。他の多くのサイトがリンクしている非常に人気のあるページが 1 つある場合、他のサイトからのエントリポイントが非常に多いため、SE が開始するページはそのページになると思います。

私は SEO などの専門家ではないことに注意してください。取り組んでいたプロジェクトのために、ボットと SE のトラフィックをしばらく調べました。

score 4 · Accepted Answer

サイト送信フォームを使用して検索エンジンにサイトを送信できます。これにより、検索エンジンのシステムにアクセスできます。その後実際にクロールされるとは言えません - 経験上、通常、最初のクロールには約 1 週間ほどかかります (ホームページ、そこから 1 リンクの深さの他のいくつかのページ)。明確なセマンティックリンク構造とサイトマップの送信を使用して、クロールされ、インデックスに登録されるページの数を増やすことができます。これにより、すべてのページをリストし、それらを相互に比較して重み付けすることができます。これにより、検索エンジンがあなたの閲覧の重要性を理解するのに役立ちます。他の部分に対するサイトの各部分。

あなたのサイトが他のクロールされた Web サイトからリンクされている場合、あなたのサイトもクロールされ、リンクされたページから始まり、最終的にサイトの残りの部分に広がります。これには時間がかかり、リンクしているサイトのクロール頻度にも依存するため、URL を送信することが Google にあなたのことを知らせる最も簡単な方法です。

あまりお勧めできないツールの 1 つは、Google Webmaster Toolです。クロールされた頻度、Googlebot が遭遇したエラー (リンク切れなど) を確認でき、他にも多くの便利なツールが用意されています。

score 2 · Accepted Answer

原則として、何もないところから始めます。誰かが自分の Web サイトを含めるように明示的に指示した場合にのみ、このサイトのクロールを開始し、そのサイトのリンクを使用してさらに検索することができます。

ただし、実際には、検索エンジンの作成者は、考えられる任意のサイトをいくつか配置します。たとえば、自分のブログやブックマークにあるサイトなどです。

理論的には、いくつかのランダムなアドレスを選択して、そこに Web サイトがあるかどうかを確認することもできます。しかし、誰もこれを行うとは思えません。上記の方法は問題なく機能し、検索エンジンをブートストラップするためだけに追加のコーディングを行う必要はありません。

search-engine - 検索エンジンはどこからクロールを開始しますか?

3 に答える 3

Related

Reference