0

私は次の問題を奨励しました: 私は多くのテキスト文書を分類しようとしています.

20 のクラスがあります。1 つは正常、19 は異常です。ナイーブ ベイズ分類を使用すると、次の結果が得られます。分類は 19 クラスでうまく機能しますが、「正常」クラスでは多くの誤分類エラーが発生しました。「正常」カテゴリのほとんどすべてのケースが、他の (非正規) カテゴリとして分類されました。

私の質問があります:

  • How should I select training set for "normal" class? (Now, I just fit to classifier set of text with "normal" category, with 1/20 proportion).
  • Can classifier be specified this way: if probability of belonging to some class less then certain threshold then classifier must set up
    category for this sample (e.g. normal)?
4

2 に答える 2

2

ほとんどの場合、各クラスのインスタンス数のバランスが取れていないことが問題の原因です。不均衡なインスタンスの問題を回避するために、最終的なクラス推定よりもある種の事前確率を定義する必要があり、クロス検証によってこの事前確率の外生パラメーターを微調整する必要があります。Dirichlet Prior は多項式 NB に使用されていると思います。

于 2014-06-24T09:38:18.177 に答える
1

全体像は定かではありませんが、実際には「正常」と「異常」の2つのクラスしかなく、ボリュームのバランスが取れていないため、前にあるようです。

最初の質問に答えるために、その状況では、トレーニングのために通常のクラスをオーバーサンプリングし (同じ「通常の」インスタンスを複数回渡してより大きなボリュームを「偽装」する)、パフォーマンスが向上するかどうかを確認します。

2 番目の質問がわかりません。

于 2014-06-26T03:54:47.080 に答える