2

それぞれに4つの数値の配列が関連付けられている10個のデータポイントのセットに対してakmeansクラスタリング分析を実行したいと思います。距離メトリックとしてピアソン相関係数を使用しています。k-meansクラスタリングアルゴリズムの最初の2つのステップは、次のとおりです。

1)kクラスターの初期中心のセットを選択します。[2つの初期中心をランダムに選択しました]

2)各オブジェクトを最も近い中心を持つクラスターに割り当てます。[距離メトリックとしてピアソン相関係数を使用しました-以下を参照してください]

今、私はアルゴリズムの3番目のステップを理解する助けが必要です:

3)クラスターの新しい中心を計算します。

新しいセンターの公式 調子

ここで、Xは、この場合は4次元ベクトルであり、nはクラスター内のデータポイントの数です。

次のデータのC(S)を計算するにはどうすればよいですか?

# Cluster 1
A   10  15  20  25  # randomly chosen centre
B   21  33  21  23
C   43  14  23  23
D   37  45  43  49
E   40  43  32  32

# Cluster 2
F  100  102 143 212 #random chosen centre
G  303  213 212 302
H  102  329 203 212
I  32   201 430 48
J  60   99  87  34

k平均法アルゴリズムの最後のステップは、オブジェクトがクラスターを変更しなくなるまでステップ2と3を繰り返すことです。これは、十分に単純です。

ステップ3で助けが必要です。クラスターの新しい中心を計算します。誰かがクラスターの1つだけの新しい中心を計算する方法を調べて説明できれば、それは非常に役立ちます。

4

3 に答える 3

6

他の距離関数をk-meansに投入しないでください。

K-meansは、距離ではなく「二乗和」を最小化するように設計されています。二乗の合計を最小化することにより、偶然に二乗ユークリッド距離、したがってユークリッド距離が最小化されますが、これは他の距離には当てはまらない可能性があるため、任意の距離関数で使用するとK-meansは収束を停止する可能性があります

繰り返しますが、k-meansは任意の距離を最小化しません。これは、ユークリッド距離の2乗と一致する「2乗の合計」を最小化します。

任意の距離関数に対して明確に定義されたアルゴリズムが必要な場合は、k-meansバリアントであるk -medoids(Wikipedia)の使用を検討してください。PAMは、任意の距離関数で収束することが保証されています。

于 2013-03-25T08:41:19.130 に答える
0

ステップ3は、各クラスターの平均の計算に対応します。クラスター1の場合、新しいクラスターセンターとして取得します。(B+C+D+E) / 4つまり(35.25 33.75 29.75 21.75)、クラスター内のすべてのポイントの各コンポーネントを個別に合計し、クラスター内のポイント数で除算します。

クラスターセンター(Aクラスター1の場合)は通常、新しいクラスターセンターの計算の一部ではありません。

于 2013-03-24T22:27:15.153 に答える
0

n次元の点を持つクラスターごとに、n次元の重心を計算して重心を取得します。この例では、4次元の点があるため、重心は4次元のそれぞれに沿った平均です。クラスター1の場合、重心は(30.20、30.00、27.80、30.40)です。たとえば、最初の次元の平均は(10 + 21 + 43 + 37 + 40)/ 5=30.20として計算されます。

詳細については、K-Meansクラスタリングに関するウィキペディアの記事を参照してください。

于 2013-03-25T00:03:00.723 に答える