3

私は大規模なサイトの世話をしており、他の同様のサイトを調査しています。特に、flickr と deviantart を見てきました。彼らは大量のデータを持っていると言っていますが、表示されるのはそれほど多くないことに気付きました。

これはパフォーマンス上の理由によるものだと思いますが、何を表示し、何を表示しないかをどのように決定するかについては、誰もが考えを持っています。古典的な例として、flickr に移動し、タグを検索します。ページ リンクのすぐ下に表示されている結果の数に注意してください。次に、どのページになるかを計算し、そのページに移動します。そのページにはデータがないことがわかります。実際、私のテストでは、flickr は 5,500,000 件の結果があると表示していましたが、4,000 件しか表示されませんでした。これは何ですか?

大規模なサイトが大きくなりすぎて、古いデータをオフラインにしなければならないことはありますか? Deviantart にはウェイバック機能がありますが、それが何をするのかよくわかりません。

どんな入力でも素晴らしいでしょう!

4

2 に答える 2

1

これは、パフォーマンスの最適化の一種です。すでに4000件の結果が得られている場合は、テーブル全体をスキャンする必要はありません。ユーザーは3897ページに移動しません。flickrが検索クエリを実行すると、最初に4000件の結果が検索され、次に停止して、無駄な追加の結果を検索するためにCPU時間とIO時間を費やしません。

于 2010-11-08T15:23:33.300 に答える
0

ある意味理にかなっていると思います。検索時に、ユーザーが 400 ページまでリンクをクリックしない場合 (各ページに 10 件の結果があると仮定)、ユーザーは愚か者であるか、クローラーが何らかの形で関与しています。

真剣に言えば、40ページまで良い結果が得られない場合、関係する会社は検索チームをすべて解雇し、LuceneまたはSphinxを採用する必要があるかもしれません:)

つまり、4000 を超える検索結果を表示しようとしてインフラストラクチャの問題と戦うよりも、検索の精度を向上させようとする方がよいということです。

于 2010-11-08T15:40:28.927 に答える