球状のkmeansについて読みましたが、実装に出くわしませんでした.明確にするために、類似性は単純に2つのドキュメント単位ベクトルの内積です.標準のkは距離を測定値として使用することを読みました. 指定されている距離は、座標ジオメトリ sqrt((x2 -x1)^2 + (y2-y1)^2) のようにベクトル距離ですか?
1 に答える
1
k-means よりも多くのクラスタリング方法があります。k-means の問題は、ユークリッド距離に基づいているということではなく、アルゴリズムが収束するために平均が距離を縮めなければならないということです。
ただし、平均を計算する必要がない、または三角形の不等式を使用する必要のない、他のクラスタリング アルゴリズムがたくさんあります。DBSCAN に関するウィキペディアの記事を読むと、GDBSCAN、Generalized DBSCAN と呼ばれるバージョンについても言及されています。類似度関数をGDBSCANにプラグインできるはずです。ほとんどの場合、アルゴリズムで三角形の不等式が必要でない限り、1/similarity を距離関数として使用できます。したがって、このトリックは、たとえば DBSCAN と OPTICS で機能するはずです。おそらく、階層的クラスタリング、k-medians および k-medoids (PAM) も使用します。
于 2012-07-19T06:43:28.980 に答える