の-packageを使用して、調整されたサポート ベクター マシン (svm)モデルのすべての予測子 (または変数、または機能) の変数の重要度を取得しようとしています。しかし、評価を正しく行っているかどうかはわかりません。さて、最初のアイデア:e1071::svm
mlr
R
正直に調整された svm-model を取得するために、外側のループで空間 n 分割交差検証 ( ) を使用し、内側のループで空間交差検証 ( ) を使用して、ネストされたリサンプリングのチュートリアルに従っています。チューニング パラメータとして、ランダム グリッド検索でチューニングされます。すべての予測子の変数の重要度評価として、 を使用したいと思います。これは、説明に関連して、基本的に、機能が順列された予測と順列されていない予測の間の合計された差です。SpRepCV
SpCV
gamma
cost
permutation.importance
には、変数の重要度を取得するためのフィルター関数mlr
がいくつかありますが、同時に、ユーザー固有の選択入力 (しきい値または変数の数) に基づいてモデルを適合させる前にサブセットが作成されます。- ただし、すべての適合モデルのすべての変数の変数重要度を取得したいと考えています。(私はその学習者が「包括的な」重要な評価を持っていることを知っています)random forest
現在、リサンプリングの - 引数で使用mlr::generateFeatureImportanceData
していますが、これは非常に厄介です。extract
もっと簡単な方法がないのでしょうか?
mlr
-development バージョンを使用した例:
## initialize libraries
# devtools::install_github("mlr-org/mlr) # using developper version of mlr
if(!require("pacman")) install.packages("pacman")
pacman::p_load("mlr", "ParamHelpers", "e1071", "parallelMap")
## create tuning setting
svm.ps <- ParamHelpers::makeParamSet(
ParamHelpers::makeNumericParam("cost", lower = -12,
upper = 15, trafo = function(x) 2^x),
ParamHelpers::makeNumericParam("gamma", lower = -15,
upper = 6, trafo = function(x) 2^x)
)
## create random search grid, small iteration number for example
ctrl.tune <- mlr::makeTuneControlRandom(maxit = 8)
# inner resampling loop, "
inner <- mlr::makeResampleDesc("SpCV", iters = 3, predict = "both")
# outer loop, "
outer <- mlr::makeResampleDesc("SpRepCV", folds = 5, reps = 2, predict = "both")
## create learner - Support Vector Machine of the e1071-package
lrn.svm <- mlr::makeLearner("classif.svm", predict.type = "prob")
# ... tuning in inner resampling
lrn.svm.tune <- mlr::makeTuneWrapper(learner = lrn.svm, resampling = inner,
measures = list(auc),
par.set = svm.ps, control = ctrl.tune,
show.info = FALSE)
## create function that calculate variable importance based on permutation
extractVarImpFunction <- function(x)
{
list(mlr::generateFeatureImportanceData(task = mlr::makeClassifTask(
id = x$task.desc$id,
data = mlr::getTaskData(mlr::spatial.task, subset = x$subset),
target = x$task.desc$target,
positive = x$task.desc$positive,
coordinates = mlr::spatial.task$coordinates[x$subset,]),
method = "permutation.importance",
learner = mlr::makeLearner(cl = "classif.svm",
predict.type = "prob",
cost = x$learner.model$opt.result$x$cost,
gamma = x$learner.model$opt.result$x$gamma),
measure = list(mlr::auc), nmc = 10
)$res
)
}
## start resampling for getting variable importance of tuned models (outer)
# parallelize tuning
parallelMap::parallelStart(mode = "multicore", level = "mlr.tuneParams", cpus = 8)
res.VarImpTuned <- mlr::resample(learner = lrn.svm.tune, task = mlr::spatial.task,
extract = extractVarImpFunction,
resampling = outer, measures = list(auc),
models = TRUE, show.info = TRUE)
parallelMap::parallelStop() # stop parallelization
## get mean auroc decrease
var.imp <- do.call(rbind, lapply(res.VarImpTuned$extract, FUN = function(x){x[[1]]}))
var.imp <- data.frame(AUC_DECR = colMeans(var.imp), Variable = names(colMeans(var.imp)))