私は次の問題を奨励しました: 私は多くのテキスト文書を分類しようとしています.
20 のクラスがあります。1 つは正常、19 は異常です。ナイーブ ベイズ分類を使用すると、次の結果が得られます。分類は 19 クラスでうまく機能しますが、「正常」クラスでは多くの誤分類エラーが発生しました。「正常」カテゴリのほとんどすべてのケースが、他の (非正規) カテゴリとして分類されました。
私の質問があります:
- How should I select training set for "normal" class? (Now, I just fit to classifier set of text with "normal" category, with 1/20 proportion).
- Can classifier be specified this way: if probability of belonging to
some class less then certain threshold then classifier must set up
category for this sample (e.g. normal)?