7

樹状図は非常に人気があることを私は知っています。ただし、観測値とクラスが非常に多い場合は、追跡するのが困難です。しかし、同じことを提示するためのより良い方法があるはずだと感じることもあります。アイデアは浮かびましたが、実装方法がわかりません。

次の樹状図を考えてみましょう。

> data(mtcars)
> plot(hclust(dist(mtcars)))

ここに画像の説明を入力してください

散布図のようにプロットできます。2点間の距離が線でプロットされ、散在するクラスター(想定されるしきい値)が色付けされ、円のサイズがいくつかの変数の値によって決定されます。

ここに画像の説明を入力してください

4

1 に答える 1

12

あなたは、クラスター分析のかなり典型的な方法を説明しています。

  • クラスタリング アルゴリズムを使用する (この場合は階層的クラスタリング)
  • クラスタ数を決定する
  • 何らかの形式分析または主成分分析を使用して、データを 2 次元平面に射影する

コード:

hc <- hclust(dist(mtcars))
cluster <- cutree(hc, k=3)
xy <- data.frame(cmdscale(dist(mtcars)), factor(cluster))
names(xy) <- c("x", "y", "cluster")
xy$model <- rownames(xy)

library(ggplot2)
ggplot(xy, aes(x, y)) + geom_point(aes(colour=cluster), size=3)

次に起こることは、x 軸と y 軸が何を意味するかを説明するのを手伝ってくれる、熟練した統計学者を得ることです。これには通常、データを座標軸に射影し、因子負荷量を抽出することが含まれます。

プロット:

ここに画像の説明を入力

于 2012-07-13T08:22:14.647 に答える