0

R で簡単に実装できる、大規模で高次元のバイナリ データセット (200,000 以上の行と 150 以上のフィールドを考えてください) 内で高度に相関する変数のグループを見つけるための実証済みの方法は何ですか? 解釈に役立つ変数のグループ化を見つけたいので、PCAが最良の方法になるとは思いません。

4

1 に答える 1

1
    library(Hmisc)
mtc <- mtcars[,2:8]
    mtcn <- data.matrix(mtc)
    clust <- varclus(mtcn)
    clust
    plot(clust)

?varclus :Hoeffding D 統計量、二乗ピアソンまたはスピアマン相関、または類似度として 2 つの変数が両方とも正である観測値の割合を使用して、変数の階層クラスター分析を行います。変数クラスタリングは、共線性、冗長性を評価し、変数を単一の変数としてスコア付けできるクラスターに分離するために使用され、結果としてデータが削減されます。

バイナリ Vraible の場合:

library(cluster)
data(animals)
ma <- mona(animals)
ma

plot(ma)  

?mona :バイナリ変数のみを持つデータセットの分割階層クラスタリングを表すリストを返します。

于 2014-01-29T12:59:48.227 に答える