それぞれに4つの数値の配列が関連付けられている10個のデータポイントのセットに対してakmeansクラスタリング分析を実行したいと思います。距離メトリックとしてピアソン相関係数を使用しています。k-meansクラスタリングアルゴリズムの最初の2つのステップは、次のとおりです。
1)kクラスターの初期中心のセットを選択します。[2つの初期中心をランダムに選択しました]
2)各オブジェクトを最も近い中心を持つクラスターに割り当てます。[距離メトリックとしてピアソン相関係数を使用しました-以下を参照してください]
今、私はアルゴリズムの3番目のステップを理解する助けが必要です:
3)クラスターの新しい中心を計算します。
ここで、Xは、この場合は4次元ベクトルであり、nはクラスター内のデータポイントの数です。
次のデータのC(S)を計算するにはどうすればよいですか?
# Cluster 1
A 10 15 20 25 # randomly chosen centre
B 21 33 21 23
C 43 14 23 23
D 37 45 43 49
E 40 43 32 32
# Cluster 2
F 100 102 143 212 #random chosen centre
G 303 213 212 302
H 102 329 203 212
I 32 201 430 48
J 60 99 87 34
k平均法アルゴリズムの最後のステップは、オブジェクトがクラスターを変更しなくなるまでステップ2と3を繰り返すことです。これは、十分に単純です。
ステップ3で助けが必要です。クラスターの新しい中心を計算します。誰かがクラスターの1つだけの新しい中心を計算する方法を調べて説明できれば、それは非常に役立ちます。