3

ドキュメントの長さに基づいて、Lucene Scoring 関数に偏りがないようにしたい。これは実際には、文書に基づいてスコアを計算するためのフォローアップの質問であり、lucene での用語の出現が多い

Field.setOmitNorms(true) がどのように機能するのか疑問に思っていましたか? 短いドキュメントのスコアが高くなる要因は 2 つあります。

  1. より短い長さの投稿を「ブースト」 - doc.getBoost() を使用
  2. norm(t,d) の定義の「lengthNorm」

ここにドキュメントがあります

私は疑問に思っていました-短いドキュメントに偏りがないようにしたい場合、 Field.setOmitNorms(true) で十分ですか?

4

2 に答える 2

0

TF-IDF スコアリングを使用する場合、短いドキュメントはより関連性が高くなります。

カスタム スコアリング関数を Lucene で使用できます。スコアリング アルゴリズムを簡単にカスタマイズできます。DefaultSimilarity をサブクラス化し、カスタマイズするメソッドをオーバーライドします。

実装に役立つコードサンプルがここにあります

于 2014-07-18T07:35:43.090 に答える