8

WEKA での K-Means クラスタリングの出力が実際に何を意味するのか、誰か説明できますか?

例えば

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0  

列の数字は実際には何を意味するのか、表の上にあるクラスターの重心と書かれていますが、2 つのクラスターの重心が何であるかを判断するにはどうすればよいでしょうか?

誰かが数字の意味を説明できれば、私は最も感謝しています.

見つかったクラスターのシルエット評価を完了する方法について何かアイデアがあれば、それも素晴らしいでしょう。

ありがとう

4

4 に答える 4

4

最初の列は、全体的な人口の重心を示しています。2番目と3番目の列は、それぞれクラスター0と1の重心を示します。各行は、特定の次元の重心座標を示します。

K-meansをブラッシュアップする必要があると思います。重心を見つけることは、アルゴリズムの重要な部分です。重心は、アルゴリズムの特定の実行の結果であり、一意ではありません。実行が異なると、異なる重心セットが生成される場合があります。

詳細については、MichaelAbernethyによるWekaクラスタリングの説明を参照してください。

于 2011-05-16T07:18:59.360 に答える
4

ほんの第一歩、

  1. 視覚化タブからプロットをarffファイルとして保存します。

  2. weka で開いて編集をクリックすると、各インスタンスがどのクラスターに属しているかが自動的に表示されます。

  3. この表を Excel にコピーします (簡単に視覚化するため)。

  4. Excel または Matlab を使用して、従来の方法でシルエット、結合、分離を見つけます。

于 2013-01-13T02:39:02.127 に答える
-1

属性が名義上のものである場合、クラスター内の属性に最も頻度の高い値を使用します。属性が数値の場合、クラスター内の属性の平均値を使用します。詳細については、このリンクを確認してください。

于 2012-03-30T09:25:24.827 に答える