machine-learning - 単純ベイズ分類における未知の単語

翻译自：https://stackoverflow.com/questions/26287971 2014-10-09T21:10:49.877

2142 次

未知の単語を含むテキスト分類の問題をテストするにはどうすればよいですか? モデルのトレーニングでは、平滑化手法 (Laplace add-1) を使用して、すべての単語がクラスごとに少なくとも 1 カウントを受け取るようにすることができます。

では、テスト段階ではどうでしょうか。トレーニングデータに単語が含まれていない場合、それを処理する最善の方法は何ですか? 単純にスキップしますか、それとも 1 のオカレンスを与えますか?

提案や意見をお寄せいただきありがとうございます。具体的には、単純ベイズ分類器を使用しています。

1 に答える 1