-2

正しく分類されたインスタンスの結果に対するトレーニング/テスト データの影響を理解するのに苦労しています。

パーセンテージ分割でより多くのテストデータを適用すると、アルゴリズムの信頼性が向上するナイーブベイズの例?

4

1 に答える 1

1

データ セット全体をトレーニングとテストに分割するポイントは、学習するモデル (単純ベイズなど) が、単なるデータではなく、原因と結果 (特徴と予測) の間の真の関係を反映する必要があることです。たとえば、曲線を多数のデータ ポイントに完全に適合させることはいつでもできますが、それを行うと、作成しようとしていた予測には役に立たなくなる可能性があります。

個別のテスト セットを使用することにより、学習したモデルは目に見えないデータでテストされます。理想的には、トレーニング セットとテスト セットのエラー (または測定対象のもの) はほぼ同じであり、モデルが合理的に一般的であり、トレーニング データに過適合していないことを示しています。

あなたの場合、トレーニング セットのサイズを小さくするとテスト セットのパフォーマンスが向上する場合は、学習したモデルが具体的すぎて一般化できないことを示唆しています。ただし、トレーニングとテストの分割を変更する代わりに、学習者のパラメーターを微調整する必要があります。単純なトレーニングとテストの分割ではなく、クロス検証の使用を検討することもできます。より信頼性の高いパフォーマンスの見積もりが得られるからです。

于 2012-12-27T05:14:39.553 に答える