3

Naive Bayes モデルを使用して、ドキュメントをポジティブ ラベルとネガティブ ラベルとして分類しています。72 ドキュメント前後の小さなバランスの取れたデータセット サイズでは問題なく動作しているようです。しかし、否定的なラベルの付いたドキュメントをさらに追加すると、分類子はすべてを否定的に予測しています。

データセットを 80% のトレーニング セットと 20% のテスト セットに分割しています。否定的にラベル付けされたドキュメントを追加すると、データセットが確実に歪められます。分類子がすべてのテスト ドキュメントをネガティブと予測するのは、歪度のせいでしょうか? Navive Bayes modle の TextBlob/nltk 実装を使用しています。

何か案が?

4

1 に答える 1

4

はい、データセットが分類器にバイアスをかけている可能性があります。どのクラスを選択するかを分類子に伝えるための非常に強い信号がない場合は、最も一般的なクラスを選択するのが理にかなっています (あなたの場合は否定的です)。クラス分布と精度をプロットしてみましたか? 試してみるもう 1 つのことは、偏った 80 対 20 のトレーニング テスト分割を誤って描画しないように、k 倍の検証です。

于 2014-03-04T14:56:32.463 に答える