0

使用可能な変数が約 500 あり、モデルの変数選択をしようとしているとします (応答はバイナリです)。

私は、すべての連続に対してある種の相関分析を行うことを計画しており、その後、カテゴリ分析を行います。

多くの変数が関係しているため、手動で行うことはできません。

使える機能はありますか?それともモジュールですか?

4

3 に答える 3

5

で利用irisできるデータセットを使用していますR。それで

sapply(iris, is.factor)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width      Species 
       FALSE        FALSE        FALSE        FALSE         TRUE 

あなたの列が要因であるかどうかを教えてくれます。だから使って

iris[ ,sapply(iris, is.factor)]

因子列のみを選択できます。と

iris[ ,!sapply(iris, is.factor)]

因子ではない列が表示されます。is.numericis.characterおよび他のさまざまなバージョンを使用することもできます。

于 2013-08-09T16:19:34.787 に答える
1

を使用str(df)して、どの列が要因で、どの列がそうでないかを確認できます (df はデータフレームです)。たとえば、R のデータ iris の場合:

str(iris)
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

または、使用できますlapply(iris,class)

$Sepal.Length
[1] "numeric"

$Sepal.Width
[1] "numeric"

$Petal.Length
[1] "numeric"

$Petal.Width
[1] "numeric"

$Species
[1] "factor" 
于 2013-08-09T16:21:43.927 に答える