2

名前付きエンティティ認識のタスクについて、隠れマルコフ モデルと条件付きランダム フィールドを調べてきましたが、基本的な概念に固執しているようです。つまり、学習プロセスの目標は、トレーニング データから argmax を計算することです。 、その argmax シー​​ケンスをテスト データのすべてのインスタンスに適用しますか?

この隠れマルコフ モデルの例を考えてみましょう。2 つの状態 {1,0} があります。1 はエンティティ、0 はその他の単語です。簡単にするために、私はまだエンティティの分類には関心がなく、エンティティの検出だけに関心があります。

私のトレーニングデータは次のとおりです。

オバマはワシントンに住んでいる 1 0 0 1

iPadはいいですね 0 1 0 0

スティーブ・ジョブズは病気です 1 1 0 0

次の argmax ルールに従います。

P(状態 1 から状態 1) = 1/9

P(状態 1 から状態 0) = 1 - 1/9

P(状態 0 から状態 0) = 3/9

P(状態 0 から状態 1) = 1 - 3/9

V 行列と U 行列を計算すると、次のことがわかります。

トレーニング データから抽出された最良のラベル シーケンス = 1 1 0 0

テスト文を考えてみましょう:

アイフォンはいいぞ

テスト文を 1 1 0 0 に適用するだけで実際に機能しますが、「ソニーのスポークスパーソンが解雇されました」のような別のテスト文がある場合、シーケンス 1 1 0 0 はまったく役に立たないことがわかります。その文のために。

要約すると、トレーニングの目的は、1 つの最適なラベル シーケンスを抽出し、それをすべてのテスト センテンスに適用することですか? それはありそうもないでしょう!私は何が欠けていますか??

4

1 に答える 1

0

HMM に関するこの講義を読むことを強くお勧めします。HMM 定義からの抜粋を次に示します。

s ∈ K ∪ {STOP} および u,v ∈ K ∪ {*} となる任意のトライグラム (u,v,s) のパラメーター q(s|u,v)。q(s|u,v) の値は、タグのバイグラム (u,v) の直後にタグ s が表示される確率として解釈できます。

任意の x ∈ V、s ∈ K のパラメーター e(x|s)。e(x|s) の値は、状態 s と対になった観測 x が見られる確率として解釈できます。

e が欠落しているようで、q を正しく計算していません。

q(1|0,0) = count <0,0,1> / count <0,0> 

タグの最良のシーケンスは、上記のパラメーターの積を考慮して、最も可能性の高いものです (式を投稿せずに申し訳ありません)。

あなたの例「ソニーの広報担当者が解雇された」の場合、すべてのシーケンスは次のとおりです。

* * 0 0 0 0 0 0 STOP
* * 0 0 0 0 0 1 STOP
...
* * 1 1 1 1 1 1 STOP

e(A|0) 、 e(spokesperson|0) 、 q(0|*,*) 、 q(0|*,0) などを計算する必要があります。次に、それに応じてそれらを乗算し、最も高い確率でシーケンスを取得します。

これは時間のかかる作業であり、シーケンスが長くなると指数関数的に増大するため、ビタビ アルゴリズムが使用されます (講義でも説明されています)。

于 2013-09-16T08:26:46.600 に答える