5

クローラーを実装する方法について読んでいます。訪問するURLのリスト(シードリスト)から始めることを理解しています。これらすべてのURLにアクセスし、アクセスしたページのすべてのリンクをリスト(フロンティア)に追加します。では、このシードリストにいくら追加する必要がありますか?できるだけ多くのURLを追加するだけで、www上のURLと同じ数のURLが表示されることを期待できますか?それによって、他のすべてのURLがそこに表示されることが実際に保証されますか?または、これを行うためのいくつかの規則がありますか?つまり...グーグルのような検索エンジンは何をするのですか?

4

1 に答える 1

3

基本的には、それらの間の接続(リンク)を使用してWebサイトの大きなリストを作成します。あなたの検索エンジンが知っているウェブサイトが多ければ多いほど良いです。ここでの唯一の問題は、このリストを有用にすることができることです。つまり、Webサイトの可能性のリストが大きいからといって、検索結果が適切であるとは限らないため、各Webページで何が重要かを判断できる必要があります。

しかし、あなたが持っている情報処理能力によれば、どこかで立ち止まる必要はありません。

それはあなたがそこにあるすべてのURLに到達することを保証するものではありませんが、それは基本的にウェブをクロールする唯一の実用的な方法です。

于 2011-05-17T16:55:20.110 に答える