0

NER CRF ベースの優れたモデルを作成する必要があります。私は広大なドメインをターゲットにしており、ターゲットにしているクラスの総数は 17 です。また、多くの実験を行うことで、うまく機能する一連の機能セット (austen.prop) を作成しました。NERは良い結果を出していません。トレーニング データ サイズなどのコンテキストに基づいた CRFである NER の制限を知る必要があります。

私はたくさん検索しましたが、今までトレーニングデータを作成する際に従うべき規則を見つけることができません.

(注:モデルの作成方法と使用方法を完全に知っています。各ターゲットクラスの何パーセントかが存在する必要があるという規則があるかどうかを知る必要があるだけです。)

誰かが私を導くことができれば、私はあなたに感謝します.

4

1 に答える 1

0

英語の場合、標準的なトレーニング データ セットは CoNLL 2003 で、4 つのクラス (ORG、PERSON、LOCATION、MISC) に対して 15,000 のタグ付きセンテンスが含まれています。

于 2016-03-07T15:38:35.200 に答える