モデル選択のために相互検証を行うとき、相互検証スコアの「標準偏差」を引用する方法がたくさんあることがわかりました (ここで「スコア」とは、精度、AUC、損失などの評価指標を意味します)。
1) 1 つの方法は、K フォールドのスコアの平均の標準偏差 (= K フォールドの標準偏差 / sqrt(K)) を計算することです。
2) 2 番目の方法は、K フォールドのスコアの標準偏差のみを計算することです。例はここにあります:
http://scikit-learn.org/stable/auto_examples/svm/plot_svm_anova.html
3)私が完全に理解していない別の方法。K folds / sqrt(N) の標準偏差を計算するようです.Nはデータセットのサイズです...
http://scikit-learn.org/stable/auto_examples/exercises/plot_cv_diabetes.html
個人的には、サンプルの標準偏差よりもサンプル平均の標準誤差 (ここでは K フォールド検証の平均スコア) を重視するため、1) は正しいと思います。誰がどちらの方法が好ましいか説明できますか?