名前付きエンティティ認識のタスクについて、隠れマルコフ モデルと条件付きランダム フィールドを調べてきましたが、基本的な概念に固執しているようです。つまり、学習プロセスの目標は、トレーニング データから argmax を計算することです。 、その argmax シーケンスをテスト データのすべてのインスタンスに適用しますか?
この隠れマルコフ モデルの例を考えてみましょう。2 つの状態 {1,0} があります。1 はエンティティ、0 はその他の単語です。簡単にするために、私はまだエンティティの分類には関心がなく、エンティティの検出だけに関心があります。
私のトレーニングデータは次のとおりです。
オバマはワシントンに住んでいる 1 0 0 1
iPadはいいですね 0 1 0 0
スティーブ・ジョブズは病気です 1 1 0 0
次の argmax ルールに従います。
P(状態 1 から状態 1) = 1/9
P(状態 1 から状態 0) = 1 - 1/9
P(状態 0 から状態 0) = 3/9
P(状態 0 から状態 1) = 1 - 3/9
V 行列と U 行列を計算すると、次のことがわかります。
トレーニング データから抽出された最良のラベル シーケンス = 1 1 0 0
テスト文を考えてみましょう:
アイフォンはいいぞ
テスト文を 1 1 0 0 に適用するだけで実際に機能しますが、「ソニーのスポークスパーソンが解雇されました」のような別のテスト文がある場合、シーケンス 1 1 0 0 はまったく役に立たないことがわかります。その文のために。
要約すると、トレーニングの目的は、1 つの最適なラベル シーケンスを抽出し、それをすべてのテスト センテンスに適用することですか? それはありそうもないでしょう!私は何が欠けていますか??