2

特定のマルチワード文字列を単一のユニット/トークンとしてマークする、やや型破りな NER システムを設計しようとしています。

クールな NER ツールはたくさんありますが、箱から出してすぐに何かを使用することはほとんど不可能な特別なニーズがいくつかあります。

まず、エンティティを抽出してリストに出力するだけでは不十分です。エンティティを何らかの方法でマークし、トークンに統合する必要があります。

次に、分類は重要ではありません。個人/組織/場所は重要ではありません (少なくとも出力では)。

第三に、これらは私たちが探している典型的な ENAMEX 名前付きエンティティだけではありません。企業や組織だけでなく、「気候変動」や「同性愛者の結婚」などの概念も必要です。いくつかのツールでこのようなタグを見たことがありますが、それらはすべて「抽出スタイル」でした。

このタイプの機能を取得するにはどうすればよいですか? 私自身の手で注釈を付けたデータセットでスタンフォードのタガーをトレーニングしてもうまくいきますか (「気候変動」風のフレーズには MISC などのラベルが付いています) それとも、「奇妙な」エンティティの候補リストを作成し、通常の NER システムで実行した後にテキストをチェックする方がよいのでしょうか?

本当にありがとう!

4

1 に答える 1

3

スタンフォード NER などの名前付きエンティティ タガーの基礎となる CRF モデルは、実際には、名前付きエンティティだけでなく、あらゆるものを認識するために使用できます。それらをうまく使って、さまざまな種類の専門用語を見つけた人は確かにいます。ソフトウェアは、コンテキスト内でマークアップされたトークン シーケンスを確実に提供できます。

ただし、NP チャンキングやコロケーション統計のようなものが使用される「より監視されていない」方法でこれにアプローチするか、多くの注釈付きの出したいフレーズのデータ​​。

于 2012-06-27T21:29:31.137 に答える