5

データセットでk-meansアルゴリズムを実行するために、Rのkmeans命令を使用していました。私が行くいくつかのパラメータについて質問があります。結果は次のとおりです。

Cluster means:
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     5.006000    3.428000     1.462000    0.246000

その場合、クラスターとはどういう意味ですか?これは、クラスター内のすべてのオブジェクトの距離の平均ですか?

また、最後の部分で私は持っています:

Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
 (between_SS / total_SS =  88.4 %)

その88.4%の値は、その解釈とは何でしょうか?

ありがとう

4

1 に答える 1

12

クラスターとは、入力変数によって定義された多変量空間内のクラスターの重心(中心)を与えるために結合することを意味します。したがって、表示するクラスター1の平均のセットは、そのクラスターの重心(中心)の座標です。それらは、そのクラスターに割り当てられたサンプルの各変数の値の平均として計算されます。

これ88.4 %は、クラスタリングによって説明されるデータセットの全分散の法則です。k -meansは、二乗和であるサンプルのグループ内分散(拡散)を最小化します。これにより、グループ間の分散が最大化されます。n (サンプル数)クラスターではなくkクラスターにサンプルを割り当てることにより、2乗和の合計が88.4%減少しました。

于 2013-01-25T16:21:19.597 に答える