特定のマルチワード文字列を単一のユニット/トークンとしてマークする、やや型破りな NER システムを設計しようとしています。
クールな NER ツールはたくさんありますが、箱から出してすぐに何かを使用することはほとんど不可能な特別なニーズがいくつかあります。
まず、エンティティを抽出してリストに出力するだけでは不十分です。エンティティを何らかの方法でマークし、トークンに統合する必要があります。
次に、分類は重要ではありません。個人/組織/場所は重要ではありません (少なくとも出力では)。
第三に、これらは私たちが探している典型的な ENAMEX 名前付きエンティティだけではありません。企業や組織だけでなく、「気候変動」や「同性愛者の結婚」などの概念も必要です。いくつかのツールでこのようなタグを見たことがありますが、それらはすべて「抽出スタイル」でした。
このタイプの機能を取得するにはどうすればよいですか? 私自身の手で注釈を付けたデータセットでスタンフォードのタガーをトレーニングしてもうまくいきますか (「気候変動」風のフレーズには MISC などのラベルが付いています) それとも、「奇妙な」エンティティの候補リストを作成し、通常の NER システムで実行した後にテキストをチェックする方がよいのでしょうか?
本当にありがとう!