0

類似性とクラスタリング テキストで少し遊ぶことにしました。

類似性の tf-idf と symmatrix マトリックスを既に作成しています。ここで、グループにクラスタリングするための何かを実装したいと考えています。

私は調査を行い、hcluster および k-means ライブラリを見つけました。

精度の点でどちらが優れていますか? 準備が整ったライブラリがなくても、もっと良い方法を知っていますか? アルゴリズムを知っていれば、コードを書くことができました。

また、この方法は O(n^2) です。計算時間に勝つために少し精度を犠牲にしたい場合は、何か提案はありますか?

4

0 に答える 0