未知の単語を含むテキスト分類の問題をテストするにはどうすればよいですか? モデルのトレーニングでは、平滑化手法 (Laplace add-1) を使用して、すべての単語がクラスごとに少なくとも 1 カウントを受け取るようにすることができます。
では、テスト段階ではどうでしょうか。トレーニング データに単語が含まれていない場合、それを処理する最善の方法は何ですか? 単純にスキップしますか、それとも 1 のオカレンスを与えますか?
提案や意見をお寄せいただきありがとうございます。具体的には、単純ベイズ分類器を使用しています。