Lucene を使用して、インデックス内のドキュメントを残りのドキュメントと比較したいと考えています。簡単な方法は、ドキュメントをクエリとして送信することであることがわかりました。問題は、用語を OR リングとして配置する必要があることです。最も難しい部分は、. で用語をブーストすることterm frequency
です。
ドキュメントのすべての空白をトリミングして に置き換えると' OR '
、lucene が解析して解釈してくれると思います。しかし、この問題に対処する最も洗練された方法はありますか?
また、項をそれぞれの頻度でブーストする最も簡単な方法はどれですか?