Lucene の Term Freq ベクトルを使用して、ドキュメント間のコサイン類似度を計算しています。ドキュメントに「借りている」「借りている」「借りている」という 3 つの用語があるとします。Lucene はこれを 3 つの別個の用語と見なしますが、そのうちの 3 つは同じ「借り」を意味します。セマンティクスによる索引付けに使用できるLuceneの機能はありますか? そのため、「借りている」「借りている」「借りている」を、単語の頻度 = 3 の「借りている」という 1 つの単語としてインデックス付けします。
そうでない場合、このタスクを達成するための提案を歓迎しますか?