0

相互検証について質問があります。単純ベイズ分類器を使用して、ブログ投稿を著者別に分類しています。k 分割交差検証を使用せずにデータセットを検証すると、0.6 の精度スコアが得られますが、k 分割交差検証を行うと、各分割の精度がはるかに高くなります (0.8 を超えます)。

例えば:

(手動で分割): 検証セット サイズ: 1452、トレーニング セット サイズ: 13063、精度: 0.6033057851239669

その後

(k フォールドあり): フォールド 0 -> トレーニング セット サイズ: 13063、検証セット サイズ: 1452 精度: 0.8039702233250621 (すべてのフォールドが 0.8 以上)

等...

なぜこれが起こるのですか?

4

1 に答える 1

1

これにはいくつかの理由が考えられます。

  1. あなたの「手動」分割はランダムではなく、予測が難しい外れ値をさらに選択することがあります。この分け方はどうですか?

  2. kk 倍 CVとは何ですか? Validation Set Size の意味がわかりません。k 倍の CV に倍のサイズがあります。検証セットはありません。データ全体を使用してクロス検証を実行します。k分割交差検証を正しく実行していますか?

通常、k = 10k 分割交差検証を選択します。データ全体を使用して正しく実行する場合は、他の結果ではなくその結果に依存する必要があります。

于 2015-02-20T09:48:31.320 に答える