私の理解では、トレーニング ファイルを作成するには、言葉をテキスト ファイルに入れます。次に、各単語の後に、タグ (PERS、LOC など) とともにスペースまたはタブを追加します。
また、サンプル プロパティ ファイルからワード パッドにテキストをコピーしました。分類子に入力して使用できる gz ファイルにこれらを取得するにはどうすればよいですか?
でも案内してください。私は初心者で、テクノロジーにかなり不慣れです。
私の理解では、トレーニング ファイルを作成するには、言葉をテキスト ファイルに入れます。次に、各単語の後に、タグ (PERS、LOC など) とともにスペースまたはタブを追加します。
また、サンプル プロパティ ファイルからワード パッドにテキストをコピーしました。分類子に入力して使用できる gz ファイルにこれらを取得するにはどうすればよいですか?
でも案内してください。私は初心者で、テクノロジーにかなり不慣れです。
トレーニング ファイル (たとえばtraining-data.tsv) は次のようになります。
I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O
whereOは、名前付きエンティティではない場合のように、「外側」を意味します。
列間のスペースはtabです。
ser.gzそれらをファイルに入れません。ser.gz ファイルは、トレーニング プロセスによって作成される分類子モデルです。
分類子をトレーニングするには、次のように実行します。
java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
次のようにmy-classifier.propertiesなります。
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
    パーサーのトレーニングについて詳しくは、NLTK のドキュメントをご覧になることをお勧めしますhttp://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。ここで、(パーサーではなく) CRFClassifier をトレーニングする必要があるようです。そのために、この FAQ http://nlp.stanford.edu/software/crf-faq.shtml#aを確認してください。