1

私はプロジェクトに取り組んでおり、その一部はPOSタグ付け用の教師なしHMMトレーナーを開発することであり、現在、可能性のあるバグをテストしたいと考えています。

モデルのトレーニングにバウムウェルチアルゴリズムを使用しています。入力は(コーパスから抽出された)シーケンスワードであり、出力は一連の状態からの非表示状態のシーケンスです(s1, s2, ... sn)。これでコーディングは完了しましたが、バグがないかどうかはわかりません。

誰かが私にいくつかのデバッグのアイデアを提案できますか?何のように出力をチェックインする必要がありますか?アルゴリズムの精度を確認するにはどうすればよいですか?

4

1 に答える 1

1

教師なしPOSタグ付けは、非常に興味深い新しい研究トピックです。私が正しく理解していれば、あなたは実際に、コードをデバッグする方法ではなく、タグ付けの精度を評価する方法を求めています。評価は、教師なしPOS誘導における既知の問題です。あなたの質問に対する簡単な答えは次のとおりです。NLTKからこの注釈付きコーパスを取得し、状態をコーパスタグにマッピングして、最も頻繁に発生するタグに状態をマッピングし、正しいものの割合を見つけます。この評価手順は、多対1マッピングと呼ばれます。

それはあなたの質問などに答えるので、あなたは自分自身を文学に精通させるべきです。開始する場所は次のとおりです。

  • 初期の論文:

    マークジョンソン。2007.EMが優れたHMMPOSタガーを見つけられないのはなぜですか?自然言語処理と計算自然言語学習(EMNLP-CoNLL)の経験的方法に関する2007年合同会議の議事録、pp。296–305。

  • 調査報告書:

    Christos Christodoulopoulos、Sharon Goldwater、MarkSteedman。2010.教師なしPOS誘導の20年:私たちはどこまで来ましたか?EMNLP2010の議事録。

「教師なし」と言うときは、たとえば、生のテキストだけを使用するのか、辞書も使用するのかを自問する必要があります。それについての作品もあります。

また、タスクに使用できるコードがあります。

NLPについて質問するもう1つの場所は、http://metaoptimize.com/qaです。

他にご不明な点がございましたら、お気軽にお問い合わせください。

于 2011-12-05T09:39:55.187 に答える