52

私は現在、大学で自然言語処理のコースを受講していますが、基本的な概念についてまだ混乱しています。Foundations of Statistical Natural Language Processing本から POS タグ付けの定義を取得します。

タグ付けは、文中の各単語に適切な品詞を付けてラベルを付ける (またはタグ付けする) タスクです。各単語が名詞、動詞、形容詞などのいずれであるかを判断します。

しかし、この本には、POS タグ付けのユーティリティの 1 つとして浅い解析も記述されているため、浅い解析の定義を見つけることができません。だから私はウェブを検索し始めましたが、浅い解析の直接的な説明は見つかりませんでしたが、ウィキペディアでは:

浅い解析 (チャンキング、「軽い解析」とも呼ばれる) は、構成要素 (名詞グループ、動詞、動詞グループなど) を識別する文の分析ですが、それらの内部構造や主文での役割は指定しません。

率直に言って違いはわかりませんが、英語のせいか、単純な基本概念を理解していないだけかもしれません。浅い解析とPOSタグ付けの違いを誰か説明してもらえますか? 浅い解析はしばしば浅い意味解析とも呼ばれますか?

前にありがとう。

4

5 に答える 5

63

POS タグ付けは、入力文のすべての単語に POS タグを付与します。

文を解析すると (たとえば、スタンフォード pcfg を使用して)、文がツリーに変換され、その葉には POS タグ (文中の単語に対応する) が保持されますが、ツリーの残りの部分は、これらの単語がどの程度正確に結合されているかを示します。合わせて文全体を作ります。たとえば、形容詞と名詞が結合して「名詞句」になる場合があり、それが別の形容詞と結合して別の名詞句を形成する場合があります (例: クイック ブラウン フォックス) (ピースが結合される正確な方法は、問題のパーサーによって異なります)。http://nlp.stanford.edu:8080/parser/index.jsp
で、パーサーの出力がどのように見えるかを確認できます。

浅いパーサーまたは「チャンカー」は、これら 2 つの中間に位置します。単純な POS タガーは非常に高速ですが、十分な情報が得られず、本格的なパーサーは遅く、多くの情報が得られます。POS タガーは、解析ツリーの最下位層のみを返すパーサーと考えることができます。チャンカーは、代わりに解析ツリーの他の層を返すパーサーと考えることができます。単語の集まりが一緒になって名詞句を形成することを知る必要がある場合もありますが、それらの単語内のツリーのサブ構造 (つまり、どの単語が形容詞、限定詞、名詞などであり、それらがどのように組み合わされるか) は気にしません。 . このような場合、文の完全な解析ツリーを生成する時間を無駄にする代わりに、チャンカーを使用して必要な情報を正確に取得できます。

于 2012-01-25T15:44:31.663 に答える
43

POS タグ付けは、テキストからのすべてのトークンのタイプ (NOUN、VERB、DETERMINER など) を決定するプロセスです。トークンは、単語または句読点にすることができます。
一方、浅い解析またはチャンキングは、テキストを構文的に関連するグループに分割するプロセスです。

位置タグ出力

私の/PRP$ 犬/NN 好き/VBZ 彼/PRP$ 食べ物/NN ./.

チャンク出力

[NP 私の犬] [VP が好き] [NP 彼の食べ物]

于 2012-01-26T01:04:57.123 に答える
2

Constraint Grammar フレームワークは実例です。最も単純で粗雑な形式では、入力として POS タグ付きテキストを受け取り、節タグの一部と呼ばれるものを追加します。たとえば、形容詞の場合、@NN>ヘッド ワードが右側にある NP の一部であることを示すために追加できます。

于 2012-01-25T14:55:19.543 に答える
2

POS_taggerでは、 {noun, verb, adj, adv, prob...}などの「タグセット」を使用して単語にタグを付けますが、浅い パーサーName Entity などのサブコンポーネントや、「I'm currently. ((私の大学)でナチュラル(言語処理コース)を取っています)そして(まだいくつかの基本的な概念と混同しています。)"

于 2012-01-28T07:15:59.583 に答える