Luceneから取得した結果に対して単純なクラスタリングアルゴリズムを実行するには、Luceneの2つのドキュメント間のコサイン類似度を計算する必要があります。また、各クラスターの重心を表す重心ドキュメントを作成できる必要があります。
私が考えることができるのは、TermFreqVectorsとOverall Termの頻度を使用してデータを設定し、tf-idfの重み付けを使用して独自のベクトル空間モデルを構築することだけです。
私の質問は:これは効率的なアプローチではありません、これを行うためのより良い方法はありますか?
これは少し不明瞭に感じるので、質問を改善する方法についての提案もありがたいです。