類似性とクラスタリング テキストで少し遊ぶことにしました。
類似性の tf-idf と symmatrix マトリックスを既に作成しています。ここで、グループにクラスタリングするための何かを実装したいと考えています。
私は調査を行い、hcluster および k-means ライブラリを見つけました。
精度の点でどちらが優れていますか? 準備が整ったライブラリがなくても、もっと良い方法を知っていますか? アルゴリズムを知っていれば、コードを書くことができました。
また、この方法は O(n^2) です。計算時間に勝つために少し精度を犠牲にしたい場合は、何か提案はありますか?