5

torrentz.com のような検索エンジンの背後にある技術に興味があります。私が観察したところ、トレント ファイルをホストするのではなく、トレント ファイルをホストする他のサーバーに接続します。

  • キーワードを検索すると、検索に一致する可能性のあるタイトルのリストが表示されます。
  • 次に、これらのいずれかを選択すると、対応するトレント ファイルをホストしている可能性のあるサーバーの別のリストが表示されます。

私が特に興味を持っているのは、すべてのコンテンツを収集してインデックス化するための戦略です。

どのようにデータを収集し、集計するのですか?
これらのサーバーのそれぞれがインデックス作成のためにコンテンツを送信する送信ベース サービスですか?
クロールアルゴリズムですか?もしそうなら、piratebay.org のようなサイトのクロールをどのように開始しますか?
これらの他のサーバーのデータベースにアクセスできますか?

bittorrent プロトコルに関する私の知識と理解はそれほど精巧ではありませんが、オンラインで見つけたドキュメントは、私が興味を持っているものとはまったく異なるトラッカー サービスの構築に関連するプロセスに向けたものでした。素材が高く評価されています。

4

1 に答える 1

6

まず、RSS フィードのインデックス作成を開始し、そこからデータを収集します。次のステップは、ポータル (Mininova、tpb など) のページのインデックス作成ですが、サーバーから要求された大量のデータ (i彼らがそれについてあまりにも幸せだとは思わないでください..

そうは言っても、彼らが他のサーバーのデータベースにアクセスできるとは思えませんが、むしろ +rss をクロールしています。

使用できるもう 1 つのことは、誰かが qyour データベースにないアイテムのクエリを作成したときに、メインの bt ポータルでクエリを作成し、結果をデータベースにキャッシュしてから、結果を表示することです。次に、別のユーザーが同じクエリを作成した場合 (これは非常に一般的なシナリオです)、キャッシュされたデータと RSS からの新しいデータを表示できます。

于 2009-04-02T07:23:38.417 に答える