ドキュメントの長さに基づいて、Lucene Scoring 関数に偏りがないようにしたい。これは実際には、文書に基づいてスコアを計算するためのフォローアップの質問であり、lucene での用語の出現が多い
Field.setOmitNorms(true) がどのように機能するのか疑問に思っていましたか? 短いドキュメントのスコアが高くなる要因は 2 つあります。
- より短い長さの投稿を「ブースト」 - doc.getBoost() を使用
- norm(t,d) の定義の「lengthNorm」
私は疑問に思っていました-短いドキュメントに偏りがないようにしたい場合、 Field.setOmitNorms(true) で十分ですか?