こんにちはみんな!ルート アドレスから開始し、見つかったすべてのリンク (内部リンクのみ) をクロールする Web サイト クローラーを作成します。だから私はこの問題に直面しています:クローラーはルートから開始する必要があり、次にWebページ(ルートページ)を解析してからすべてのリンクを取得する必要があります。リンクを取得する際に、同じページを 2 回クロールしてはなりません。みんな、良いデータ構造はありますか、それともSQLまたは他のインデックスデータ構造を使用する必要がありますか?
5437 次
2 に答える
2
ここで私の答えをチェックすることをお勧めします: Web クローラーの設計と、アプリケーション (Web またはコンソール) で Google のような再クロールを行うにはどうすればよいですか?
あなたが尋ねている多くの質問に答えました。ここで重要なことは、クローラーがリンクをクロールする必要があるかどうかを効率的に判断するために、URL-Seen Test を使用することです。URL-Seen Test は通常、キー (url) を迅速に解決するマップ構造を使用して実装されます。一般的に使用されるソリューションは、leveldb、berkeleydb、およびその他の NOSQL ソリューションなどの組み込みデータベースです。
于 2012-05-08T20:54:24.633 に答える