k-means と NGD (Normalized Google Distance) を使用した用語のクラスタリングに取り組んでいます。k-means アルゴリズムの入力として距離行列があります。この状況でk-meansを実行することは可能ですか? ソースコードを提案できますか?
前もって感謝します、
ナス
k-means と NGD (Normalized Google Distance) を使用した用語のクラスタリングに取り組んでいます。k-means アルゴリズムの入力として距離行列があります。この状況でk-meansを実行することは可能ですか? ソースコードを提案できますか?
前もって感謝します、
ナス
K-meansは距離行列では使用できません。
ポイントツーポイントの類似性を計算/使用しないためです。(さらに、この方法では 2 次時間未満で実行できます...)
代わりに、オブジェクトをクラスターの重心に割り当てることの分散寄与を計算します (技術的には、これは点から中心までのユークリッド距離の 2 乗です。ただし、実際にはここに他の距離を差し込むべきではありません)。これらの距離を事前計算します。
ただし、この制限がない k-means のバリエーション、特に PAM として知られる K-medoid が存在します (ウィキペディアで調べてください)。これらはクラスター センターを使用しませんが、データ セットのポイントである medoid (名前の由来) を代わりに使用します。