4

品詞タガーでは、与えられた文の最も可能性の高いタグは、HMM を使用して次のように決定されます。

    P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
              T

しかし、'Word' がトレーニング コーパスに表示されなかった場合、P(Word/Tag) は考えられるすべてのタグに対して 0 を生成するため、最適なものを選択する余地がありません。

いくつかの方法を試しましたが、

1) すべての未知の単語に少量の確率を割り当てる P(UnknownWord/AnyTag)~Epsilon ... は、一定の確率を割り当てることにより、未知の単語の P(Word/Tag) を完全に無視することを意味します..したがって、未知の単語に関する意思決定事前確率によるものです。予想通り、良い結果が得られていません。

2) ラプラス スムージング 私はこれと混同しました。(1)とこれの違いがわかりません。ラプラス平滑化を理解する私の方法は、すべての未知の既知の単語に一定の確率(ラムダ)を追加します..したがって、すべての未知の単語は一定の確率(ラムダの割合)を取得し、すべての単語の確率が増加するため、既知の単語の確率は相対的に同じになりますラムダ。ラプラス平滑化は前のものと同じですか?

*)未知の単語を扱うより良い方法はありますか?

4

2 に答える 2

9

2つのアプローチは似ていますが、私が正しく理解していれば、1つの重要な点で異なります。(1)では、未知の単語のカウントに追加の質量を割り当て、(2)では、すべてのカウントに追加の質量を割り当てています。あなたは間違いなく(1)ではなく(2)をしたいです。

ラプラススムージングの問題の1つは、未知の単語を大幅にブーストし、確率の高い単語の確率を(比較的言えば)引き下げすぎることです。お使いのバージョン(1)は、実際にはこの問題を悪化させます。基本的に、それは過度に滑らかになります。

ラプラススムージングワードはHMMには問題ありませんが、それは素晴らしいことではありません。ほとんどの人はadd-oneスムージングを行いますが、add-1/2などを試してみることができます。

平滑化へのこの素朴なアプローチを超えて移動したい場合は、 Jason EisnerのHMMチュートリアルの付録で説明されているように、「ワンカウント平滑化」を確認してください。ここでの基本的な考え方は、未知の単語の場合、より多様な低頻度の単語で表示されるタグにより多くの確率質量を与える必要があるということです。たとえば、タグNOUNは多数の異なる単語に表示され、DETERMINERは少数の異なる単語に表示されるため、見えない単語は名詞になる可能性が高くなります。

さらに詳しく知りたい場合は、ノンパラメトリックベイズ統計から取得した中華料理店プロセスモデルを使用して、目に見えない単語とタグの組み合わせに事前分布を設定できます。 KevinKnightのベイズ推定チュートリアルに詳細があります。

于 2012-09-27T02:51:33.203 に答える
0

HMM ベースのTnT taggerは、未知の単語を処理するためのより優れたアプローチを提供すると思います ( TnT tagger の論文のアプローチを参照してください)。

ブルガリア語、チェコ語、オランダ語、英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、スウェーデン語、タイ語、ベトナム語を含む 13 の言語での TnT および他の 2 つの POS および形態学的タガーの精度結果 (既知の単語と未知の単語)。この記事で見つけることができます。

于 2015-11-25T01:07:16.140 に答える