R で簡単に実装できる、大規模で高次元のバイナリ データセット (200,000 以上の行と 150 以上のフィールドを考えてください) 内で高度に相関する変数のグループを見つけるための実証済みの方法は何ですか? 解釈に役立つ変数のグループ化を見つけたいので、PCAが最良の方法になるとは思いません。
2025 次
1 に答える
1
library(Hmisc)
mtc <- mtcars[,2:8]
mtcn <- data.matrix(mtc)
clust <- varclus(mtcn)
clust
plot(clust)
?varclus :
Hoeffding D 統計量、二乗ピアソンまたはスピアマン相関、または類似度として 2 つの変数が両方とも正である観測値の割合を使用して、変数の階層クラスター分析を行います。変数クラスタリングは、共線性、冗長性を評価し、変数を単一の変数としてスコア付けできるクラスターに分離するために使用され、結果としてデータが削減されます。
バイナリ Vraible の場合:
library(cluster)
data(animals)
ma <- mona(animals)
ma
plot(ma)
?mona :
バイナリ変数のみを持つデータセットの分割階層クラスタリングを表すリストを返します。
于 2014-01-29T12:59:48.227 に答える