言語学コースでは、隠れ変数が品詞である隠れマルコフ モデルを使用して、品詞 (POS) タグ付けを実装しました。タグ付けされたデータでシステムをトレーニングし、テストして、結果をゴールド データと比較しました。
タグ付けされたトレーニング セットなしで HMM をトレーニングすることは可能でしたか?
言語学コースでは、隠れ変数が品詞である隠れマルコフ モデルを使用して、品詞 (POS) タグ付けを実装しました。タグ付けされたデータでシステムをトレーニングし、テストして、結果をゴールド データと比較しました。
タグ付けされたトレーニング セットなしで HMM をトレーニングすることは可能でしたか?
理論的にはそれができます。その場合、バウムウェルチアルゴリズムを使用します。これは、 RabinerのHMMチュートリアルで非常によく説明されています。
ただし、品詞にHMMを適用すると、標準形式で発生するエラーはそれほど満足のいくものにはなりません。これは、局所的な最大値にのみ収束する期待値最大化の形式です。ルールベースのアプローチは、HMMの手に負えないiircを打ち負かします。
Python用の自然言語ツールキットNLTKには、まさにその目的のためのHMM実装があると思います。
NLP は数年前のことですが、HMM をタグ付けしなくても、n-gram のシンボル放出/状態遷移確率 (つまり、"hello" の後に "world" が発生する可能性はどのくらいか) を判断するのに役立つと思いますが、一部ではありません。 -スピーチ。POS がどのように相互に関連しているかを学習するには、タグ付けされたコーパスが必要です。
もし私がこれから離れている場合は、コメントでお知らせください!