1

私はwekaを使用してK-meansクラスタリングを行っていましたが、小さなセットを試してみたところ、クラスター内の二乗誤差の合計(WCSS)の値が私が思っていたものではないことがわかりました。

WCSS は、すべての要素からクラスターの中心までの距離の 2 乗の合計だと思っていましたが、値が正しくありませんでした。

例: データセットは次のとおりです。

3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0

クラスター(1つだけ)の中心は3, 2, 3, 0, 1, 1, 1, 0, 1次のとおりです。

weka の出力 WCSS は 39 でしたが、私の理解では133. WCSS の意味について間違っているに違いないことはわかっていますが、誰か教えてもらえますか?

4

2 に答える 2

1

報告されるのは、属性値が正規化された後の WCSS だと思います。残念ながら、あなたの結果を再現できませんでした。

ただし、SimpleKMeans (k=1) でデータセットを使用すると、次の結果が得られました。

  • 属性値を正規化する前の WCSS は 26.4375
  • 属性値を正規化した後、WCSS は 26.4375 です

このソースは、Weka の K-means アルゴリズムが属性値を自動的に正規化することも示しています。

于 2013-10-14T13:15:14.707 に答える