java - セマンティクスを使用した Lucene インデックス作成

Question

Lucene の Term Freq ベクトルを使用して、ドキュメント間のコサイン類似度を計算しています。ドキュメントに「借りている」「借りている」「借りている」という 3 つの用語があるとします。Lucene はこれを 3 つの別個の用語と見なしますが、そのうちの 3 つは同じ「借り」を意味します。セマンティクスによる索引付けに使用できるLuceneの機能はありますか? そのため、「借りている」「借りている」「借りている」を、単語の頻度 = 3 の「借りている」という 1 つの単語としてインデックス付けします。

そうでない場合、このタスクを達成するための提案を歓迎しますか?

score 1 · Accepted Answer

SnowballFilter を EnglishStemmer で使用できます。これらの動詞をルート動詞の単語に置き換えます（あなたの例では、owe、またはおそらくowになります）。

java - セマンティクスを使用した Lucene インデックス作成

1 に答える 1

Related

Reference