私は Weka Gui - Explorer を使用しており、クラス {male, female} に従ってデータを分類したいと考えています。REPTree 分類子をベースとして MultiBoostAB 分類子を使用します。トレーニング セット (557 インスタンス) を使用して分類子の精度を評価しようとしています。
次に、約 300 の属性を持つテスト セット (200 インスタンス)。正解率は 83.5% - 200 のうち 167 の正しく分類されたインスタンスで、カッパ統計は 0.67 です。このモデルを保存し、それを使用して
他の不明なデータのラベル (男性または女性) は、ほぼ同じ良い結果を得ています。次に、トレーニング セットのサイズを 1000 インスタンスに増やして、分類子の精度を向上できるかどうかを確認しました。次の結果が得られました。
- 360 インスタンスのテスト セットを実行 --> 87.0423 % 正しく分類されたインスタンスとカッパ統計 0,7335
- 200 インスタンスのテスト セットを実行 --> 59% 正しく分類されたインスタンスとカッパ統計 0,18
(データのほとんどを女性として予測します) トレーニング セットのサイズを大きくすると、モデルが悪化するのはなぜですか?