java - Lucene スコアリング関数 - 短いドキュメントへのバイアス

Question

ドキュメントの長さに基づいて、Lucene Scoring 関数に偏りがないようにしたい。これは実際には、文書に基づいてスコアを計算するためのフォローアップの質問であり、lucene での用語の出現が多い

Field.setOmitNorms(true) がどのように機能するのか疑問に思っていましたか? 短いドキュメントのスコアが高くなる要因は 2 つあります。

私は疑問に思っていました-短いドキュメントに偏りがないようにしたい場合、 Field.setOmitNorms(true) で十分ですか?

score 0 · Accepted Answer

TF-IDF スコアリングを使用する場合、短いドキュメントはより関連性が高くなります。

カスタムスコアリング関数を Lucene で使用できます。スコアリングアルゴリズムを簡単にカスタマイズできます。DefaultSimilarity をサブクラス化し、カスタマイズするメソッドをオーバーライドします。

実装に役立つコードサンプルがここにあります

2 に答える 2