使用可能な変数が約 500 あり、モデルの変数選択をしようとしているとします (応答はバイナリです)。
私は、すべての連続に対してある種の相関分析を行うことを計画しており、その後、カテゴリ分析を行います。
多くの変数が関係しているため、手動で行うことはできません。
使える機能はありますか?それともモジュールですか?
で利用iris
できるデータセットを使用していますR
。それで
sapply(iris, is.factor)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
FALSE FALSE FALSE FALSE TRUE
あなたの列が要因であるかどうかを教えてくれます。だから使って
iris[ ,sapply(iris, is.factor)]
因子列のみを選択できます。と
iris[ ,!sapply(iris, is.factor)]
因子ではない列が表示されます。is.numeric
、is.character
および他のさまざまなバージョンを使用することもできます。
を使用str(df)
して、どの列が要因で、どの列がそうでないかを確認できます (df はデータフレームです)。たとえば、R のデータ iris の場合:
str(iris)
'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
または、使用できますlapply(iris,class)
$Sepal.Length
[1] "numeric"
$Sepal.Width
[1] "numeric"
$Petal.Length
[1] "numeric"
$Petal.Width
[1] "numeric"
$Species
[1] "factor"