java - Luceneドキュメントの重心との類似度を計算する

Question

Luceneから取得した結果に対して単純なクラスタリングアルゴリズムを実行するには、Luceneの2つのドキュメント間のコサイン類似度を計算する必要があります。また、各クラスターの重心を表す重心ドキュメントを作成できる必要があります。

私が考えることができるのは、TermFreqVectorsとOverall Termの頻度を使用してデータを設定し、tf-idfの重み付けを使用して独自のベクトル空間モデルを構築することだけです。

私の質問は：これは効率的なアプローチではありません、これを行うためのより良い方法はありますか？

これは少し不明瞭に感じるので、質問を改善する方法についての提案もありがたいです。

score 1 · Accepted Answer

マーク、MahoutとLuceneの統合、IR MathとJava、またはLuceneを使用したベクトル空間分類子が役立つ場合があります。

score 0 · Accepted Answer

簡単に言えば、いいえ。

私はこれを調べるのに多くの時間を費やしました (あまりにも多くのことです)。私が見る限り、独自のベクトル空間モデルを作成してそれから作業するか、Mahout を使用して Mahout ベクトルを生成することができます。から文書を比較します。先に進んで自分で作成するので、この質問に回答済みのマークを付けます。

java - Luceneドキュメントの重心との類似度を計算する

3 に答える 3

Related

Reference