NLTK Naive Bayes メソッドを使用してスパム分類器をトレーニングしました。スパム セットと非スパム セットの両方で、トレーニング中の単語のインスタンスが 20,000 あります。
未知の機能に遭遇すると、スパムの可能性がclassifier
あることに気付きました:0.5
>>> print classifier.prob_classify({'unkown_words':True}).prob('spam')
0.5
Laplace Smoothing
これはベイズ分類で呼ばれることを知っています。ただし、未知の機能は通常のユーザーからのものである可能性が高いため、未知の機能のスパム確率を に設定したいと思います。0.4
どうすればNLTKで実装できますか?