search - torrentz.euのようなWebサイトはどのようにコンテンツを収集しますか？

Question

いくつかの検索ウェブサイトがどのようにコンテンツを取得するのか知りたいのですが。いくつかのソースからのコンテンツが含まれているため、タイトルに「torrentz.eu」の例を使用しました。このシステムの背後にあるものを知りたいです。彼らは「単に」彼らがサポートするすべてのウェブサイトを解析してからコンテンツを表示しますか？または、Webサービスを使用していますか？または両方？

score 7 · Accepted Answer

あなたは情報検索のクロールの側面を探しています。

基本的にクロールは次のとおりです。最初のWebサイトのセットを前提として、リンクを調べてWebサイトを拡張してみます（推移閉包Sを見つけます¹）。

一部のWebサイトは、最初からWebのサブセットのみをインデックスに登録しようとする場合、フォーカスドクローラーも使用していました。

PS一部のWebサイトはどちらも実行せず、Google Custom Search API / Yahoo Boss / Bing Deveoper API（もちろん有料）が提供するサービスを使用し、独自に作成するのではなく、インデックスを使用します。

PPSこれは、どのようにそれを行うことができるかという理論的なアプローチを提供しています。言及されたWebサイトが実際にどのように機能するかはわかりません。

（1）時間の問題により、推移閉包は通常は見つかりませんが、それに十分近いものが見つかります。

search - torrentz.euのようなWebサイトはどのようにコンテンツを収集しますか？

1 に答える 1

Related

Reference