classification - weka でそのモデルのデータが過剰適合されているかどうかを確認する方法

Question

元のデータセットには 500 個のインスタンスがあり、10 個のクラスがあり、クラスの不均衡が存在します

クラスの不均衡を減らすために、オーバーサンプリング手法を使用しました。新しいデータセットには 1500 のインスタンスと 10 のクラスがあります。

元のデータセットに j48 分類器を適用し、63% の精度を得ました

新しいサンプリングされたデータセットには、j48 分類器を適用し、75% の精度を得ました。

私の質問は、私のデータが分類器に過剰に適合していることに疑いがあるということです。

データがオーバーフィットしているかどうかを確認する方法とオーバーフィットを減らす方法

score 0 · Accepted Answer

Lars が回答で述べたように、分類器がテストデータのオーバーフィッティングに苦しんでいるのか、それともトレーニング不足なのかは明らかではありません。あなたの問題は私にとって後者のケースのように聞こえます。

また、バランスの取れていないデータを扱う場合は、テスト/トレーニングの精度がすべてのクラスで同等に良好であることを確認することも重要です。これは、分類子が一部のクラスでは高精度に「偏り」を持ち、他のクラスでは精度が非常に低い可能性があるためです。

2 に答える 2