12

検索エンジン ボットは何を出発点として使用しますか? それは DNS ルックアップですか、それとも既知のサイトの固定リストから始めますか? 推測や提案はありますか?

4

3 に答える 3

8

あなたの質問は、次の 2 つの方法で解釈できます。

一般的に検索エンジンがどこからクロールを開始するのか、または特定のサイトのクロールを開始する場所を尋ねているのでしょうか?

大企業がどのように働いているかはわかりません。しかし、独自の検索エンジンを作成する場合は、おそらく人気のあるポータル サイトに種をまくでしょう。 DMOZ.orgは人気のある出発点のようです。大企業は私たちよりもはるかに多くのデータを持っているため、さまざまな場所からクロールを開始する可能性があります。

SE が特定のサイトのクロールを開始する場所を尋ねている場合は、おそらく、どのページが最も人気があるかに大きく関係しています。他の多くのサイトがリンクしている非常に人気のあるページが 1 つある場合、他のサイトからのエントリ ポイントが非常に多いため、SE が開始するページはそのページになると思います。

私は SEO などの専門家ではないことに注意してください。取り組んでいたプロジェクトのために、ボットと SE のトラフィックをしばらく調べました。

于 2008-09-03T11:07:26.487 に答える
4

サイト送信フォームを使用して検索エンジンにサイトを送信できます。これにより、検索エンジンのシステムにアクセスできます。その後実際にクロールされるとは言えません - 経験上、通常、最初のクロールには約 1 週間ほどかかります (ホームページ、そこから 1 リンクの深さの他のいくつかのページ)。明確なセマンティック リンク構造とサイトマップの送信を使用して、クロールされ、インデックスに登録されるページの数を増やすことができます。これにより、すべてのページをリストし、それらを相互に比較して重み付けすることができます。これにより、検索エンジンがあなたの閲覧の重要性を理解するのに役立ちます。他の部分に対するサイトの各部分。

あなたのサイトが他のクロールされた Web サイトからリンクされている場合、あなたのサイトもクロールされ、リンクされたページから始まり、最終的にサイトの残りの部分に広がります。これには時間がかかり、リンクしているサイトのクロール頻度にも依存するため、URL を送信することが Google にあなたのことを知らせる最も簡単な方法です。

あまりお勧めできないツールの 1 つは、Google Webmaster Toolです。クロールされた頻度、Googlebot が遭遇したエラー (リンク切れなど) を確認でき、他にも多くの便利なツールが用意されています。

于 2008-09-03T10:55:09.230 に答える
2

原則として、何もないところから始めます。誰かが自分の Web サイトを含めるように明示的に指示した場合にのみ、このサイトのクロールを開始し、そのサイトのリンクを使用してさらに検索することができます。

ただし、実際には、検索エンジンの作成者は、考えられる任意のサイトをいくつか配置します。たとえば、自分のブログやブックマークにあるサイトなどです。

理論的には、いくつかのランダムなアドレスを選択して、そこに Web サイトがあるかどうかを確認することもできます。しかし、誰もこれを行うとは思えません。上記の方法は問題なく機能し、検索エンジンをブートストラップするためだけに追加のコーディングを行う必要はありません。

于 2008-09-03T11:00:49.670 に答える