私はwekaを使用してK-meansクラスタリングを行っていましたが、小さなセットを試してみたところ、クラスター内の二乗誤差の合計(WCSS)の値が私が思っていたものではないことがわかりました。
WCSS は、すべての要素からクラスターの中心までの距離の 2 乗の合計だと思っていましたが、値が正しくありませんでした。
例: データセットは次のとおりです。
3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0
クラスター(1つだけ)の中心は3, 2, 3, 0, 1, 1, 1, 0, 1
次のとおりです。
weka の出力 WCSS は 39 でしたが、私の理解では133
. WCSS の意味について間違っているに違いないことはわかっていますが、誰か教えてもらえますか?