NER と POS のタグ付けを理解するために、Stanford CoreNLP を調べていました。しかし、エンティティのカスタム タグを作成したい場合はどうすればよい<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>
ですか? この場合、CoreNLP は役に立ちますか?
2262 次
2 に答える
4
すぐに使用できる CoreNLP は、言及されているタイプに制限されます: PERSON、LOCATION、ORGANIZATION、MISC、DATE、TIME、MONEY、NUMBER。いいえ、「直感的に」できると仮定するだけでは、他のエンティティを認識することはできません:)
実際には、次のいずれかを選択する必要があります。
- それらのタイプにタグを付ける別の NER システムを見つける
- 知識ベース/教師なしアプローチを使用して、このタグ付けタスクに対処します。
- 認識したいタイプを含む追加のリソース (コーパス) を検索し、教師付き NER システム (CoreNLP またはその他) を再トレーニングします。
- 独自のリソースを作成 (および場合によっては注釈を付けます) - 次に、注釈スキーム、ルールなどを定義する必要があります。これは作業の非常に興味深い部分です!
確かに、ニーズを満たす既存のシステムが見つからない限り、多少の努力が必要になります。教師なしアプローチは、専用のコーパスを見つけて注釈を付ける必要があるかどうかを確認するために、システムをブートストラップするのに役立つ場合があります。後者の場合、結果のシステムが目に見えないデータに対してどの程度のパフォーマンスを発揮するかを評価できるように、データをトレーニング/開発/テストの部分として分離することをお勧めします。
于 2014-01-26T09:04:55.687 に答える
1
この FAQ ( http://nlp.stanford.edu/software/crf-faq.shtml ) を参照して、CRF 分類子を使用してモデルを新しいクラス用にトレーニングしてください。役に立つかもしれません。
于 2016-06-08T18:44:45.107 に答える