2

1〜10文を含む短いフレーズのインデックスがあります。フレーズが長いほど関連性の高い結果になりますが、用語の頻度が低いため、1つのライナーすべてよりもスコアが低くなります。私がやりたいのは、用語の頻度の逆数をブーストするか、より長いドキュメントをブーストすることです。

私はC#、NEST、ElasticSearchを使用していますが、生のLuceneでさえこれを実行する方法がわからないため、何かが役に立ちます。

「書かれた記事」を検索すると、ドキュメント2のような短いドキュメントが一貫して上部に表示され、ドキュメント1のような良い結果が下部に表示されます。どうすればこれを元に戻すことができますか?

Doc 2

猫は記事を書くことができません

Doc 1

これはよく書かれ、考え抜かれた記事です。Loremipsum dolor sit amet、consecteturadipiscingelit。Quisque ornare sem ac arcuposuereviverra。整数egestaspharetranuncneccursus。Nam rhoncus sem nec semlaoreettincidunt。

4

1 に答える 1

3

たぶんファイル長フィールドを追加してそれをブーストしますか?

また

短いドキュメントがブーストされないように、omitNorms = trueを使用してノルムを削除し、長さの正規化を削除してみましたか?

于 2012-09-18T17:42:26.887 に答える