1

私の質問は、交差検証 (CV) の後に、最大のエラーを引き起こしているクラスを特定するのに役立つデータセットに関するものです。たとえば、次の CV データを考えてみましょう。

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.194     0.015      0.315     0.194     0.24       0.786    A
                 0.369     0.024      0.571     0.369     0.449      0.844    B
                 0.096     0.015      0.167     0.096     0.122      0.688    C
                 0.478     0.015      0.558     0.478     0.515      0.858    D
                 0.648     0.01       0.768     0.648     0.703      0.904    E
                 0.481     0.019      0.82      0.481     0.606      0.928    F
                 0.358     0.012      0.646     0.358     0.461      0.862    G
                 1         0.001      0.973     1         0.986      1        H
                 0.635     0.005      0.825     0.635     0.717      0.959    I
                 0.176     0.003      0.667     0.176     0.278      0.923    J
                 0.999     0.346      0.717     0.999     0.835      0.984    K
Weighted Avg.    0.704     0.169      0.692     0.704     0.671      0.931

例から、クラス K が組み合わされた精度を低下させることは明らかです (私の文脈では重要な FP 率に注意してください)。ここで私の質問は、トレーニング セットからクラス K を完全に無視するのが賢明でしょうか? または、より正確なクラス (たとえば、この例では K 以外のクラス) についてのみテスト インスタンスの分類を検討する方がよいでしょうか。

K などのクラス全体を無視することに対する私の主張は、実際にはクラス K に属するテスト インスタンスを強制的に他のクラスに適合させる可能性があるということです。これは非論理的に思えます。

入力はありますか?

ありがとう

4

2 に答える 2

2

これは、取り組む実際の問題に大きく依存します。たとえば、クラスが客観的なグラウンド トゥルースを反映しているか (たとえば、テキストを書いた作家に分類しようとしている)、またはクラスが恣意的であるか (たとえば、「ラウンド」と「非」の分類など) です。丸い」オブジェクト)? タイプ I とタイプ II のエラーの相対的な重みと、再現率 (カバレッジ) の重要性は?

しかし、私が提案できる実用的な方法は、階層的な分類です。

具体的には、CV 混同行列を使用して、きちんと分離されていないクラスのペア (またはグループ) を見つけます。それらを単一のクラスとしてグループ化します。次に、二次分類子をトレーニングして、グループに属するクラスのみを分離します。これにより、より正確な分類につながる可能性があります。特に、特定のグループを分類するために、別の機能/分類アルゴリズムのセットの方が優れていることがわかった場合はそうです。

たとえば、混同行列が次のようになっているとします。

       class/classified as
               |A |B |C |D 
              A|10|2 |1 |3
              B|0 |15|0 |1
              C|0 |0 |21|16
              D|0 |0 |9 |11

明らかに、C と D の間には大きな混乱があります。A、B、E の 3 つのクラス (C と D を組み合わせたもの) だけで同じ分類器を再トレーニングし、E見つかった。

于 2013-06-19T11:35:05.007 に答える
0

私が最初に考えたのは、クラス K のこのリスクを軽減するために、偽陽性にコストを割り当てる方法を見つけようとすることです。

于 2013-06-18T22:02:06.943 に答える