言語学では、「興味深い言葉」は と呼ばれますopen class words
。そして、あなたが言及しているタスクは、実際にはチャンク/解析タスクではありません。各単語にタグを付けて「興味深い」かどうかを確認するための、ある種のタガー/アノテーター/ラベラーを探しています。
配列標識
シーケンス ラベル付けタスクとしてタスクにアプローチする場合、文John Edward Grey started running now that he knows he is fat
は次のようにタグ付けされます。
[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]
でタグ付けされたものはすべてB
、「興味深い」チャンクの始まりを意味し、
でタグ付けされた後続の単語O
は、「興味深い」チャンクの最後になります。
B
また、前の「興味深い」チャンクの終わりと新しい「興味深い」チャンクの始まりにラベルを付ける後続のラベルを付けることもできます。
面白いかどうか?
実際、何が面白いかどうかは、タスクの最終的な目的が何であるかによって異なります。私にとって、それstarted running
は「興味深い」チャンクであると言ってrunning
いましたbegin action
。
クローズドクラスとオープンクラスの言葉
興味のない単語が何であるかを念頭に置いている場合は、その辞書を作成し、シーケンス ラベル付けスクリプトを実行して、近いクラスの単語の辞書にない単語を検出することをお勧めします。
機械学習アプローチ
もう 1 つのアプローチは、関心のあるものとそうでないもののサンプル データに事前に注釈を付けた機械学習分類タスクを実行することです。次に、いくつかの分類機能を特定し、分類を実行してB
、 、I
、O
タグでデータを自動的にタグ付けします。