3

全文検索を実装しようとしたときに問題が発生しました。私にとって、それは何よりも数学/統計学のように思えます。データベースから取得されるデータは本のタイトルであるため、クエリによって返されるスコアは、非常に近い値 (例: 9.98; 9.97; 9.78 - これらはすべて非常に関連性の高い結果) または広い範囲 (例: 9.99; 8.2; 2.1 -最初の 2 つは関連性があり、3 番目はノイズです)。クエリ結果を操作して無関係なものを削除する方法がわかりません。私の最初の例では良い結果をフィルタリングするため、標準偏差は機能しません。さまざまな正規化方法は、関連する結果を省略したり、無関係なものを含めたりします。ご意見、ご感想をお願いします。

ありがとう。ビクター

4

1 に答える 1

1

私はこのような問題に取り組んでいましたが、全文ではなく時間ベースのデータを使用していました。私は68-95-99.7 ルールを見つけました。これは、とりわけ、真のベル カーブでは、結果の約 95% が平均の 2 標準偏差内にあることを指摘しています。私はこの知識を利用して、結果の 5% を外れ値として除外することにしました。同様に、関連性スコアが最も低い全文検索結果の 5% を除外することもできます。

別のオプションとして、特定の関連性スコアのしきい値、または表示する特定の最小数の結果を選択することもできます。または両方 -- より多くの結果が得られる基準で表示できます。

于 2012-07-10T18:41:53.023 に答える