machine-learning - 交差検証を使用すると精度が向上し、交差検証を使用しないと精度が低下します

Question

相互検証について質問があります。単純ベイズ分類器を使用して、ブログ投稿を著者別に分類しています。k 分割交差検証を使用せずにデータセットを検証すると、0.6 の精度スコアが得られますが、k 分割交差検証を行うと、各分割の精度がはるかに高くなります (0.8 を超えます)。

例えば：

(手動で分割): 検証セットサイズ: 1452、トレーニングセットサイズ: 13063、精度: 0.6033057851239669

その後

(k フォールドあり): フォールド 0 -> トレーニングセットサイズ: 13063、検証セットサイズ: 1452 精度: 0.8039702233250621 (すべてのフォールドが 0.8 以上)

等...

なぜこれが起こるのですか？

score 1 · Accepted Answer

これにはいくつかの理由が考えられます。

あなたの「手動」分割はランダムではなく、予測が難しい外れ値をさらに選択することがあります。この分け方はどうですか？
kk 倍 CVとは何ですか? Validation Set Size の意味がわかりません。k 倍の CV に倍のサイズがあります。検証セットはありません。データ全体を使用してクロス検証を実行します。k分割交差検証を正しく実行していますか?

通常、k = 10k 分割交差検証を選択します。データ全体を使用して正しく実行する場合は、他の結果ではなくその結果に依存する必要があります。

1 に答える 1