いくつかの検索ウェブサイトがどのようにコンテンツを取得するのか知りたいのですが。いくつかのソースからのコンテンツが含まれているため、タイトルに「torrentz.eu」の例を使用しました。このシステムの背後にあるものを知りたいです。彼らは「単に」彼らがサポートするすべてのウェブサイトを解析してからコンテンツを表示しますか?または、Webサービスを使用していますか?または両方?
1684 次
1 に答える
7
基本的にクロールは次のとおりです。最初のWebサイトのセットを前提として、リンクを調べてWebサイトを拡張してみます(推移閉包S
を見つけます1)。
一部のWebサイトは、最初からWebのサブセットのみをインデックスに登録しようとする場合、フォーカスドクローラーも使用していました。
PS一部のWebサイトはどちらも実行せず、Google Custom Search API / Yahoo Boss / Bing Deveoper API(もちろん有料)が提供するサービスを使用し、独自に作成するのではなく、インデックスを使用します。
PPSこれは、どのようにそれを行うことができるかという理論的なアプローチを提供しています。言及されたWebサイトが実際にどのように機能するかはわかりません。
(1)時間の問題により、推移閉包は通常は見つかりませんが、それに十分近いものが見つかります。
于 2012-09-13T12:14:27.410 に答える