stanford-nlp - Stanford NER: 使用してテストできる新しいトレーニングセットを作成するにはどうすればよいですか?

Question

私の理解では、トレーニングファイルを作成するには、言葉をテキストファイルに入れます。次に、各単語の後に、タグ (PERS、LOC など) とともにスペースまたはタブを追加します。

また、サンプルプロパティファイルからワードパッドにテキストをコピーしました。分類子に入力して使用できる gz ファイルにこれらを取得するにはどうすればよいですか?

でも案内してください。私は初心者で、テクノロジーにかなり不慣れです。

score 2 · Accepted Answer

トレーニングファイル (たとえばtraining-data.tsv) は次のようになります。

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O

whereOは、名前付きエンティティではない場合のように、「外側」を意味します。

列間のスペースはtabです。

ser.gzそれらをファイルに入れません。ser.gz ファイルは、トレーニングプロセスによって作成される分類子モデルです。

分類子をトレーニングするには、次のように実行します。

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties

次のようにmy-classifier.propertiesなります。

trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...

score 0 · Accepted Answer

パーサーのトレーニングについて詳しくは、NLTK のドキュメントをご覧になることをお勧めしますhttp://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。ここで、(パーサーではなく) CRFClassifier をトレーニングする必要があるようです。そのために、この FAQ http://nlp.stanford.edu/software/crf-faq.shtml#aを確認してください。

stanford-nlp - Stanford NER: 使用してテストできる新しいトレーニング セットを作成するにはどうすればよいですか?