7

クエリが与えられた場合、ドキュメントのコサインスコアがあります。ドキュメントのページランクもあります。2つを組み合わせる標準的な良い方法はありますか?

私はそれらを増やすことを考えていました

 Total_Score = cosine-score * pagerank

ページランクまたはコサインスコアのいずれかが低くなると、ドキュメントは面白くなくなります。

それとも、加重和を持つことが望ましいですか?

Total_Score = weight1 * cosine-score + weight2 * pagerank

これは良いですか?その場合、コサインスコアはゼロになる可能性がありますが、ページランクが高くなり、結果の中にページが表示されます。

4

4 に答える 4

3

ランキング ルールとしては、加重合計の方がおそらく優れています。

これは、問題を検索/フィルタリング ステップとランキング ステップに分割するのに役立ちます。加重合計アプローチで概説された問題は、もはや当てはまりません。

Sergey Brin と Lawrence Page によるこの論文で概説されているプロセスは、検索にベクトル/コサイン モデルの変形を使用しており、重みがユーザー アクティビティによって決定される、ある種の重み付けされた合計のように見えます (セクション 4.5.1 を参照)。このアプローチを使用すると、コサインがゼロのドキュメントは検索/フィルタリングのステップを通過しないため、ランキングの対象とは見なされません。

于 2015-04-07T20:42:27.207 に答える
1

調和平均の使用を検討できます。調和平均では、2 つのスコアが基本的に平均化されますが、スコアが低いと、通常の平均よりも平均が引き下げられます。

あなたが使用することができます:

Total_Score = 2*(cosine-score * pagerank) / (cosine-score + pagerank)

ページランクが 0.1 で余弦が 0.9 であるとすると、これら 2 つの数値の通常の平均は(0.1 + 0.9)/2 = 0.5、調和平均は となります2*(0.9*0.1)/(0.9 + 0.1) = 0.18

于 2015-05-05T12:18:09.667 に答える
0

相対性と重要性の間でトレードオフを行っていることは理解しています。これは多目的最適化の問題です。

あなたの2番目の解決策がうまくいくと思います。いわゆる線形スカラー化です。重みを最適化する方法を知りたいはずです。しかし、これを行う方法は、さまざまな哲学で見つけることができ、ケースバイケースで各変数の優位性に応じて主観的なものになります。実は、このような問題で重みを最適化する方法、数学の研究分野です。したがって、どのモデルまたは方法があなたのケースに最も適しているかを指摘するのは困難です。上記の wiki リンクを引き続き使用し、この種の問題に関するいくつかの原則を見つけられるかどうかを試してから、それらに従って自分のケースを解決してください。

于 2013-12-19T07:48:13.990 に答える