1〜10文を含む短いフレーズのインデックスがあります。フレーズが長いほど関連性の高い結果になりますが、用語の頻度が低いため、1つのライナーすべてよりもスコアが低くなります。私がやりたいのは、用語の頻度の逆数をブーストするか、より長いドキュメントをブーストすることです。
私はC#、NEST、ElasticSearchを使用していますが、生のLuceneでさえこれを実行する方法がわからないため、何かが役に立ちます。
例
「書かれた記事」を検索すると、ドキュメント2のような短いドキュメントが一貫して上部に表示され、ドキュメント1のような良い結果が下部に表示されます。どうすればこれを元に戻すことができますか?
Doc 2
猫は記事を書くことができません
Doc 1
これはよく書かれ、考え抜かれた記事です。Loremipsum dolor sit amet、consecteturadipiscingelit。Quisque ornare sem ac arcuposuereviverra。整数egestaspharetranuncneccursus。Nam rhoncus sem nec semlaoreettincidunt。