3

私の理解では、トレーニング ファイルを作成するには、言葉をテキスト ファイルに入れます。次に、各単語の後に、タグ (PERS、LOC など) とともにスペースまたはタブを追加します。

また、サンプル プロパティ ファイルからワード パッドにテキストをコピーしました。分類子に入力して使用できる gz ファイルにこれらを取得するにはどうすればよいですか?

でも案内してください。私は初心者で、テクノロジーにかなり不慣れです。

4

2 に答える 2

2

トレーニング ファイル (たとえばtraining-data.tsv) は次のようになります。

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O

whereOは、名前付きエンティティではない場合のように、「外側」を意味します。

列間のスペースはtabです。

ser.gzそれらをファイルに入れません。ser.gz ファイルは、トレーニング プロセスによって作成される分類子モデルです。

分類子をトレーニングするには、次のように実行します。

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties

次のようにmy-classifier.propertiesなります。

trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
于 2014-01-30T00:15:54.113 に答える
0

パーサーのトレーニングについて詳しくは、NLTK のドキュメントをご覧になることをお勧めしますhttp://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。ここで、(パーサーではなく) CRFClassifier をトレーニングする必要があるようです。そのために、この FAQ http://nlp.stanford.edu/software/crf-faq.shtml#aを確認してください。

于 2013-07-19T02:27:58.240 に答える