品詞タガーでは、与えられた文の最も可能性の高いタグは、HMM を使用して次のように決定されます。
P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T
しかし、'Word' がトレーニング コーパスに表示されなかった場合、P(Word/Tag) は考えられるすべてのタグに対して 0 を生成するため、最適なものを選択する余地がありません。
いくつかの方法を試しましたが、
1) すべての未知の単語に少量の確率を割り当てる P(UnknownWord/AnyTag)~Epsilon ... は、一定の確率を割り当てることにより、未知の単語の P(Word/Tag) を完全に無視することを意味します..したがって、未知の単語に関する意思決定事前確率によるものです。予想通り、良い結果が得られていません。
2) ラプラス スムージング 私はこれと混同しました。(1)とこれの違いがわかりません。ラプラス平滑化を理解する私の方法は、すべての未知の既知の単語に一定の確率(ラムダ)を追加します..したがって、すべての未知の単語は一定の確率(ラムダの割合)を取得し、すべての単語の確率が増加するため、既知の単語の確率は相対的に同じになりますラムダ。ラプラス平滑化は前のものと同じですか?
*)未知の単語を扱うより良い方法はありますか?