python - 水平方向および垂直方向のマルコビゼーション

Question

ツリー形式の文法と一緒に文があります。可能な限り最高の解析を提供できるように、それから確率的文脈自由文法をトレーニングする必要があります。最適な解析を得るために Viterbi CKY アルゴリズムを使用しています。文は次のツリー形式になっています: (TOP (S (NP (DT The) (NN flight))) (VP (MD should) (VP (VB be) (NP (NP (CD eleven) (RB am))) ( NP (NN 明日)))))) (PUNC .))

Penn Treebank の ATIS セクションから確率文法を学習し、上記の文の可能な解析出力を与えることができるシステムを構築しました。

注釈を使用して精度を向上させる水平および垂直マルコフ化手法について読みました。それらがどのように機能するかについて、私は少し混乱しています。誰かが私をいくつかの説明的な例に案内したり、それらがどのように機能し、精度にどのように影響するかを説明できますか.

score 3 · Accepted Answer

Klein と Manning によるこの論文は一見の価値があります。

http://nlp.stanford.edu/~manning/papers/unlexicalized-parsing.pdf

垂直マルコフ化は、特定のルールのコンテキストを提供する手法です。上記の論文から：

たとえば、主語 NP 展開は目的語 NP 展開とは大きく異なります。主語 NP は目的語 NP よりも代名詞として展開される可能性が 8.7 倍高くなります。サブジェクト NP とオブジェクト NP に個別のシンボルを使用すると、このバリエーションをキャプチャして、解析スコアを改善するために使用できます。この種の外部コンテキストをキャプチャする 1 つの方法は、Johnson (1998) で提示されているように、親アノテーションを使用することです。たとえば、S の親 (サブジェクトなど) を持つ NP は NPˆS とマークされ、VP の親 (オブジェクトなど) を持つ NP は NPˆVP とマークされます。

この追加の親アノテーションを使用してこれらのルールを書き換えることにより、書き換えるルールの場所に関する情報が追加されます。この追加情報により、特定のルールが書き換えられる可能性がより正確になります。

これの実装は非常に簡単です。トレーニングデータを使用して、一番下の非終端記号 (これらは、DT、NNP、NN、VB などの終端記号に書き換えるルールです) から開始し、^ の後に親の非終端記号を追加します。あなたの例では、最初の書き換えは NP^S などになります。TOPに到達するまでツリーを上っていきます(これは書き換えません)。あなたの場合、最終的な書き換えは S^TOP になります。出力のタグを取り除くと、最終的な解析ツリーが得られます。

Horizontal Markovization については、次のスレッドを参照してください: Horizontal Markovization。

python - 水平方向および垂直方向のマルコビゼーション

1 に答える 1

Related

Reference