5

条件付きランダム フィールドを使用して Named Entity Recognizer を構築しており、次の 2 つのことを探しています。

A) 個人、場所、および組織エンティティのオープン ソースの英語 NER データセット

B) 英語の NER 機能のリスト

私はすでに CoNLL-2003 コーパスを調べましたが、これがまさに私が望んでいたものであることがわかりましたが、すぐには入手できません。NER 機能のリストを見つけることができませんでした。これらの機能を手作業で設計する必要がないようにしています。

ありがとう

4

2 に答える 2

1

A)MUCコーパスの他に、手動で注釈が付けられたサブコーパスをここで確認する必要があります:http://www.americannationalcorpus.org/MASC/About.html無料で、さまざまなドキュメントジャンルがあります。NLTK、GATE、UIMAのフォーマットを解析するためのツールが付属しています:http ://www.anc.org/MASC/Download

B)これは非常に一般的な質問です。n-gram、単語の大文字化、単語の文字列を特徴、品詞などとして使用できます。CRFを使用したスタンフォードパーサーアプローチについて読むことから始めることができます:http:// nlp .stanford.edu / software / CRF-NER.shtml

于 2013-03-12T12:17:56.560 に答える