相互検証について質問があります。単純ベイズ分類器を使用して、ブログ投稿を著者別に分類しています。k 分割交差検証を使用せずにデータセットを検証すると、0.6 の精度スコアが得られますが、k 分割交差検証を行うと、各分割の精度がはるかに高くなります (0.8 を超えます)。
例えば:
(手動で分割): 検証セット サイズ: 1452、トレーニング セット サイズ: 13063、精度: 0.6033057851239669
その後
(k フォールドあり): フォールド 0 -> トレーニング セット サイズ: 13063、検証セット サイズ: 1452 精度: 0.8039702233250621 (すべてのフォールドが 0.8 以上)
等...
なぜこれが起こるのですか?