nlp - バウムウェルチアルゴリズムの実装のデバッグ（品詞タグ付け用）

Question

私はプロジェクトに取り組んでおり、その一部はPOSタグ付け用の教師なしHMMトレーナーを開発することであり、現在、可能性のあるバグをテストしたいと考えています。

モデルのトレーニングにバウムウェルチアルゴリズムを使用しています。入力は（コーパスから抽出された）シーケンスワードであり、出力は一連の状態からの非表示状態のシーケンスです(s1, s2, ... sn)。これでコーディングは完了しましたが、バグがないかどうかはわかりません。

誰かが私にいくつかのデバッグのアイデアを提案できますか？何のように出力をチェックインする必要がありますか？アルゴリズムの精度を確認するにはどうすればよいですか？

score 1 · Accepted Answer

教師なしPOSタグ付けは、非常に興味深い新しい研究トピックです。私が正しく理解していれば、あなたは実際に、コードをデバッグする方法ではなく、タグ付けの精度を評価する方法を求めています。評価は、教師なしPOS誘導における既知の問題です。あなたの質問に対する簡単な答えは次のとおりです。NLTKからこの注釈付きコーパスを取得し、状態をコーパスタグにマッピングして、最も頻繁に発生するタグに状態をマッピングし、正しいものの割合を見つけます。この評価手順は、多対1マッピングと呼ばれます。

それはあなたの質問などに答えるので、あなたは自分自身を文学に精通させるべきです。開始する場所は次のとおりです。

初期の論文：

マークジョンソン。2007.EMが優れたHMMPOSタガーを見つけられないのはなぜですか？自然言語処理と計算自然言語学習（EMNLP-CoNLL）の経験的方法に関する2007年合同会議の議事録、pp。296–305。
調査報告書：

Christos Christodoulopoulos、Sharon Goldwater、MarkSteedman。2010.教師なしPOS誘導の20年：私たちはどこまで来ましたか？EMNLP2010の議事録。

「教師なし」と言うときは、たとえば、生のテキストだけを使用するのか、辞書も使用するのかを自問する必要があります。それについての作品もあります。

また、タスクに使用できるコードがあります。

NLPについて質問するもう1つの場所は、http：//metaoptimize.com/qaです。

他にご不明な点がございましたら、お気軽にお問い合わせください。

nlp - バウムウェルチアルゴリズムの実装のデバッグ（品詞タグ付け用）

1 に答える 1

Related

Reference