私の質問は、交差検証 (CV) の後に、最大のエラーを引き起こしているクラスを特定するのに役立つデータセットに関するものです。たとえば、次の CV データを考えてみましょう。
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.194 0.015 0.315 0.194 0.24 0.786 A
0.369 0.024 0.571 0.369 0.449 0.844 B
0.096 0.015 0.167 0.096 0.122 0.688 C
0.478 0.015 0.558 0.478 0.515 0.858 D
0.648 0.01 0.768 0.648 0.703 0.904 E
0.481 0.019 0.82 0.481 0.606 0.928 F
0.358 0.012 0.646 0.358 0.461 0.862 G
1 0.001 0.973 1 0.986 1 H
0.635 0.005 0.825 0.635 0.717 0.959 I
0.176 0.003 0.667 0.176 0.278 0.923 J
0.999 0.346 0.717 0.999 0.835 0.984 K
Weighted Avg. 0.704 0.169 0.692 0.704 0.671 0.931
例から、クラス K が組み合わされた精度を低下させることは明らかです (私の文脈では重要な FP 率に注意してください)。ここで私の質問は、トレーニング セットからクラス K を完全に無視するのが賢明でしょうか? または、より正確なクラス (たとえば、この例では K 以外のクラス) についてのみテスト インスタンスの分類を検討する方がよいでしょうか。
K などのクラス全体を無視することに対する私の主張は、実際にはクラス K に属するテスト インスタンスを強制的に他のクラスに適合させる可能性があるということです。これは非論理的に思えます。
入力はありますか?
ありがとう