web-crawler - クローラのデータ構造

Question

こんにちはみんな！ルートアドレスから開始し、見つかったすべてのリンク (内部リンクのみ) をクロールする Web サイトクローラーを作成します。だから私はこの問題に直面しています:クローラーはルートから開始する必要があり、次にWebページ(ルートページ)を解析してからすべてのリンクを取得する必要があります。リンクを取得する際に、同じページを 2 回クロールしてはなりません。みんな、良いデータ構造はありますか、それともSQLまたは他のインデックスデータ構造を使用する必要がありますか?

score 2 · Accepted Answer

ここで私の答えをチェックすることをお勧めします: Web クローラーの設計と、アプリケーション (Web またはコンソール) で Google のような再クロールを行うにはどうすればよいですか?

あなたが尋ねている多くの質問に答えました。ここで重要なことは、クローラーがリンクをクロールする必要があるかどうかを効率的に判断するために、URL-Seen Test を使用することです。URL-Seen Test は通常、キー (url) を迅速に解決するマップ構造を使用して実装されます。一般的に使用されるソリューションは、leveldb、berkeleydb、およびその他の NOSQL ソリューションなどの組み込みデータベースです。

web-crawler - クローラのデータ構造

2 に答える 2

Related

Reference