python - Pythonによるテキストのクラスタリング

翻译自：https://stackoverflow.com/questions/17896417 2013-07-27T09:45:11.940

220 次

類似性とクラスタリングテキストで少し遊ぶことにしました。

類似性の tf-idf と symmatrix マトリックスを既に作成しています。ここで、グループにクラスタリングするための何かを実装したいと考えています。

私は調査を行い、hcluster および k-means ライブラリを見つけました。

精度の点でどちらが優れていますか? 準備が整ったライブラリがなくても、もっと良い方法を知っていますか? アルゴリズムを知っていれば、コードを書くことができました。

また、この方法は O(n^2) です。計算時間に勝つために少し精度を犠牲にしたい場合は、何か提案はありますか?

0 に答える 0