data
ここで作成されたデータ フレームを検討してください。
set.seed(123)
num = sample(5:20, replace = T, 20)
id = letters[1:20]
loc <- rep(id, num)
data <- data.frame(Location = loc)
data[paste0('var', seq_along(1:10))] <- rnorm(length(id) * sum(num))
data
私のトレーニングデータであると仮定します。各行は、グループ化変数 によって識別される母集団からランダムに抽出された個人に対して行われた測定値を表しますLocation
。再帰的特徴除去を使用して、予測に最適な予測変数のサブセットを特定したいと考えていますLocation
。Location
同様に、各予測変数がどの程度の変動で説明されるか(つまり、どれが最も重要で、どれだけ重要か)を理解したいと考えています。次のようなものを使用してキャレットパッケージを使用してこれを行う方法を読みました:
library(caret)
subsets <- 1:9
ctrl <- rfeControl(functions = lmFuncs, method = "repeatedcv", repeats = 10, verbose = F)
lmProfile <- rfe(data[,2:10], data[,1], sizes = subsets, rfeControl = ctrl)
私のdata
例では、各 のサンプル数が不均衡であることを考慮して、ダウン サンプリングを使用して、反復ごとLocation
に のレベル全体で同じ数のサンプルが考慮されるようにします。Location
誰かが私がこれを行う方法を示すことができますか?