2

A、B、C の 3 つのクラスがあり、標準の MaxEnt 分類子を使用してドキュメント 'd' を分類すると、次の確率が得られます。

P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25

ある意味で、この一連の確率とは大きく異なるように感じます。

P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01

これら2つの違いをスコアリングする方法はありますか?

4

2 に答える 2

3

あなたが直面している問題は、分類器間の「コンセンサス」と呼ばれることがよくあります。マルチラベル MaxEnt は N 個の独立した分類子と見なすことができるため、さまざまなクラスに「投票する」モデルのグループと考えることができます。

現在、そのような「コンセンサス」を計算するための多くの手段があります。

  • マージンの「単純な」計算 - 「勝者」クラスの確率と 2 番目のクラスの確率の差 - マージンが大きい - 分類の信頼性が高い
  • エントロピー - 結果の確率分布のエントロピーが小さいほど、決定の信頼性が高くなります
  • KL発散などを含むいくつかのさらなる方法。

一般に、結果の分布の「均一性」(決定の信頼性が低いことを意味する) または「スパイク性」(分類の信頼性が高いことを示す) を検出する方法について考える必要があります。

于 2013-12-08T14:57:36.010 に答える
1

探しているのはクロスエントロピーです。具体的には、分類器による出力で真の分布を近似するコストを計算したいと考えています。多くの場合、確率的多クラス分類器はこれを直接最適化します。これを見てください。

于 2013-12-09T12:18:26.783 に答える