距離尺度がレベシュタインである単語のリストでkmeansクラスタリングを実行することに興味があります。
1) kmeans 実装を持つ scipy や orange など、多くのフレームワークがあることを知っています。ただし、それらはすべて、実際には私に合わないデータとしてある種のベクトルを必要とします。
2) 適切なクラスタリングの実装が必要です。私はpython-clusteringを見て、a)各重心までのすべての距離の合計を返さないこと、およびb)クラスタリングの品質を保証する反復制限またはカットオフのようなものがないことに気付きました。python-clustering と daniweb のクラスタリング アルゴリズムは、実際には機能しません。
誰かが私に良いライブラリを見つけてくれますか? Google は私の友達ではありません