長いクエリとコレクション内のドキュメントの間のコサイン類似度を取得したかったのです。Lucence を使用してコレクションのインデックスを作成し、クエリを送信してドキュメントを取得しています。
ただし、一部のクエリで次のエラーが発生します。
"Caused by: org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024"
重みを上げるために、クエリ内のいくつかの用語を複製しました。しかし、lucene は、ドキュメントとクエリの両方に tf-idf を使用してコサイン類似度を計算する代わりに、単純なブール検索を行っているようです。
誰でもこれを確認できますか?