2

モデル選択のために相互検証を行うとき、相互検証スコアの「標準偏差」を引用する方法がたくさんあることがわかりました (ここで「スコア」とは、精度、AUC、損失などの評価指標を意味します)。

1) 1 つの方法は、K フォールドのスコアの平均の標準偏差 (= K フォールドの標準偏差 / sqrt(K)) を計算することです。

2) 2 番目の方法は、K フォールドのスコアの標準偏差のみを計算することです。例はここにあります:

http://scikit-learn.org/stable/auto_examples/svm/plot_svm_anova.html

3)私が完全に理解していない別の方法。K folds / sqrt(N) の標準偏差を計算するようです.Nはデータセットのサイズです...

http://scikit-learn.org/stable/auto_examples/exercises/plot_cv_diabetes.html

個人的には、サンプルの標準偏差よりもサンプル平均の標準誤差 (ここでは K フォールド検証の平均スコア) を重視するため、1) は正しいと思います。誰がどちらの方法が好ましいか説明できますか?

4

1 に答える 1