named-entity-recognition - 隠れマルコフモデルと条件付きランダムフィールドに関する質問

Question

名前付きエンティティ認識のタスクについて、隠れマルコフモデルと条件付きランダムフィールドを調べてきましたが、基本的な概念に固執しているようです。つまり、学習プロセスの目標は、トレーニングデータから argmax を計算することです。、その argmax シーケンスをテストデータのすべてのインスタンスに適用しますか?

この隠れマルコフモデルの例を考えてみましょう。2 つの状態 {1,0} があります。1 はエンティティ、0 はその他の単語です。簡単にするために、私はまだエンティティの分類には関心がなく、エンティティの検出だけに関心があります。

私のトレーニングデータは次のとおりです。

オバマはワシントンに住んでいる 1 0 0 1

iPadはいいですね 0 1 0 0

スティーブ・ジョブズは病気です 1 1 0 0

次の argmax ルールに従います。

P(状態 1 から状態 1) = 1/9

P(状態 1 から状態 0) = 1 - 1/9

P(状態 0 から状態 0) = 3/9

P(状態 0 から状態 1) = 1 - 3/9

V 行列と U 行列を計算すると、次のことがわかります。

トレーニングデータから抽出された最良のラベルシーケンス = 1 1 0 0

テスト文を考えてみましょう：

アイフォンはいいぞ

テスト文を 1 1 0 0 に適用するだけで実際に機能しますが、「ソニーのスポークスパーソンが解雇されました」のような別のテスト文がある場合、シーケンス 1 1 0 0 はまったく役に立たないことがわかります。その文のために。

要約すると、トレーニングの目的は、1 つの最適なラベルシーケンスを抽出し、それをすべてのテストセンテンスに適用することですか? それはありそうもないでしょう！私は何が欠けていますか??

score 0 · Accepted Answer

HMM に関するこの講義を読むことを強くお勧めします。HMM 定義からの抜粋を次に示します。

s ∈ K ∪ {STOP} および u,v ∈ K ∪ {*} となる任意のトライグラム (u,v,s) のパラメーター q(s|u,v)。q(s|u,v) の値は、タグのバイグラム (u,v) の直後にタグ s が表示される確率として解釈できます。

任意の x ∈ V、s ∈ K のパラメーター e(x|s)。e(x|s) の値は、状態 s と対になった観測 x が見られる確率として解釈できます。

e が欠落しているようで、q を正しく計算していません。

q(1|0,0) = count <0,0,1> / count <0,0>

タグの最良のシーケンスは、上記のパラメーターの積を考慮して、最も可能性の高いものです (式を投稿せずに申し訳ありません)。

あなたの例「ソニーの広報担当者が解雇された」の場合、すべてのシーケンスは次のとおりです。

* * 0 0 0 0 0 0 STOP
* * 0 0 0 0 0 1 STOP
...
* * 1 1 1 1 1 1 STOP

e(A|0) 、 e(spokesperson|0) 、 q(0|*,*) 、 q(0|*,0) などを計算する必要があります。次に、それに応じてそれらを乗算し、最も高い確率でシーケンスを取得します。

これは時間のかかる作業であり、シーケンスが長くなると指数関数的に増大するため、ビタビアルゴリズムが使用されます (講義でも説明されています)。

named-entity-recognition - 隠れマルコフ モデルと条件付きランダム フィールドに関する質問

1 に答える 1

Related

Reference

named-entity-recognition - 隠れマルコフモデルと条件付きランダムフィールドに関する質問