0

Lucene の Term Freq ベクトルを使用して、ドキュメント間のコサイン類似度を計算しています。ドキュメントに「借りている」「借りている」「借りている」という 3 つの用語があるとします。Lucene はこれを 3 つの別個の用語と見なしますが、そのうちの 3 つは同じ「借り」を意味します。セマンティクスによる索引付けに使用できるLuceneの機能はありますか? そのため、「借りている」「借りている」「借りている」を、単語の頻度 = 3 の「借りている」という 1 つの単語としてインデックス付けします。

そうでない場合、このタスクを達成するための提案を歓迎しますか?

4

1 に答える 1

1

SnowballFilter を EnglishStemmer で使用できます。これらの動詞をルート動詞の単語に置き換えます(あなたの例では、owe、またはおそらくowになります)。

于 2012-04-28T03:14:17.597 に答える