python - チャンカー解析ツリーの用語を抽出するNLTK

Question

ジョン・エドワード・グレイは、自分が太っていることを知った今、走り始めました

彼女はそのひどい歌手によってそれを叩くのを聞いていました

文から面白い用語を抽出したい。私は現在、POSタグ付けを使用して、各エンティティの文法タイプを識別しています。次に、各トークンをカウンターに更新します（名詞、動詞、形容詞の重みが異なります）。

これにはチャンカーを使用したいと思います。解析ツリーのリーフノードには、興味深い単語やフレーズがすべて含まれていると思います。チャンカー出力から用語を抽出するにはどうすればよいですか？

score 3 · Accepted Answer

言語学では、「興味深い言葉」はと呼ばれますopen class words。そして、あなたが言及しているタスクは、実際にはチャンク/解析タスクではありません。各単語にタグを付けて「興味深い」かどうかを確認するための、ある種のタガー/アノテーター/ラベラーを探しています。

配列標識

シーケンスラベル付けタスクとしてタスクにアプローチする場合、文John Edward Grey started running now that he knows he is fatは次のようにタグ付けされます。

[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]

でタグ付けされたものはすべてB、「興味深い」チャンクの始まりを意味し、
でタグ付けされた後続の単語Oは、「興味深い」チャンクの最後になります。
Bまた、前の「興味深い」チャンクの終わりと新しい「興味深い」チャンクの始まりにラベルを付ける後続のラベルを付けることもできます。

面白いかどうか？

実際、何が面白いかどうかは、タスクの最終的な目的が何であるかによって異なります。私にとって、それstarted runningは「興味深い」チャンクであると言ってrunningいましたbegin action。

クローズドクラスとオープンクラスの言葉

興味のない単語が何であるかを念頭に置いている場合は、その辞書を作成し、シーケンスラベル付けスクリプトを実行して、近いクラスの単語の辞書にない単語を検出することをお勧めします。

機械学習アプローチ

もう 1 つのアプローチは、関心のあるものとそうでないもののサンプルデータに事前に注釈を付けた機械学習分類タスクを実行することです。次に、いくつかの分類機能を特定し、分類を実行してB、、I、Oタグでデータを自動的にタグ付けします。

python - チャンカー解析ツリーの用語を抽出するNLTK

1 に答える 1

Related

Reference