Naive Bayes アルゴリズムを使用して、スパムまたは非スパムのテキスト分類問題を考えてみましょう。
質問は次のとおりです。
ドキュメント W についてどのように予測しますか = その単語セットに、モデルではまったく見られなかった新しい単語 wordX がある場合 (そのため、ラプラス平滑化確率が推定されていません)。
関連付けられている可能性がないため、現在のテキストに表示されていたとしても、その wordX を無視するのが通常のことですか? つまり、この問題を解決するためにラプラス スムージングが使用されることがありますが、その単語が決定的に新しい場合はどうでしょうか。
私が考えた解決策のいくつか:
1)分類を推定する際にその単語を無視するだけです(最も単純ですが、間違っていることもあります...?ただし、トレーニングセットが十分に大きい場合は、これがおそらく最善の方法です。あなたの機能を想定するのが合理的だと思います1M または 20M のデータがある場合は、十分に選択されています)。
2) その単語をモデルに追加し、モデルを完全に変更します。これは、語彙が変更されたため、どこでも確率を変更する必要があるためです (ただし、これには問題があります。これは、特に分析が 1M ドキュメントの場合、モデルを頻繁に更新する必要があることを意味する可能性があるためです)。 、 いう)
私はこれについていくつかの調査を行い、Dan Jurafsky NLP と NB のスライドを読み、coursera でいくつかのビデオを見て、いくつかの研究論文に目を通しましたが、役に立つと思うものを見つけることができませんでした。この問題はまったく新しいものではなく、何か (ヒューリスティック..?) があるはずです。そうでない場合は、それも知っておくとよいでしょう。
これがコミュニティにとって有用な投稿であることを願っています。事前に感謝します。
PS: 私が見た解決策の 1 つを使用して問題をもう少し明確にするために、スパムに未知の新しい単語 wordX があるとします。その単語に対して、1/ count(spams) + |Vocabulary を実行できます。 + 1|、私がそのようなことをする際に抱えている問題は、語彙のサイズを変更すると、分類するすべての新しいドキュメントに新しい機能と語彙の単語があるということですか? このビデオはその問題を解決しようとしているように見えますが、それが良いことなのか、それとも誤解していたのかはわかりません。