2

Luceneから取得した結果に対して単純なクラスタリングアルゴリズムを実行するには、Luceneの2つのドキュメント間のコサイン類似度を計算する必要があります。また、各クラスターの重心を表す重心ドキュメントを作成できる必要があります。

私が考えることができるのは、TermFreqVectorsとOverall Termの頻度を使用してデータを設定し、tf-idfの重み付けを使用して独自のベクトル空間モデルを構築することだけです。

私の質問は:これは効率的なアプローチではありません、これを行うためのより良い方法はありますか?

これは少し不明瞭に感じるので、質問を改善する方法についての提案もありがたいです。

4

3 に答える 3

1

マーク、MahoutとLuceneの統合IR MathとJava、またはLuceneを使用したベクトル空間分類子が役立つ場合があります。

于 2010-08-10T12:02:25.343 に答える
0

簡単に言えば、いいえ。

私はこれを調べるのに多くの時間を費やしました (あまりにも多くのことです)。私が見る限り、独自のベクトル空間モデルを作成してそれから作業するか、Mahout を使用して Mahout ベクトルを生成することができます。から文書を比較します。先に進んで自分で作成するので、この質問に回答済みのマークを付けます。

于 2010-08-10T14:37:27.777 に答える