私の理解では、トレーニング ファイルを作成するには、言葉をテキスト ファイルに入れます。次に、各単語の後に、タグ (PERS、LOC など) とともにスペースまたはタブを追加します。
また、サンプル プロパティ ファイルからワード パッドにテキストをコピーしました。分類子に入力して使用できる gz ファイルにこれらを取得するにはどうすればよいですか?
でも案内してください。私は初心者で、テクノロジーにかなり不慣れです。
私の理解では、トレーニング ファイルを作成するには、言葉をテキスト ファイルに入れます。次に、各単語の後に、タグ (PERS、LOC など) とともにスペースまたはタブを追加します。
また、サンプル プロパティ ファイルからワード パッドにテキストをコピーしました。分類子に入力して使用できる gz ファイルにこれらを取得するにはどうすればよいですか?
でも案内してください。私は初心者で、テクノロジーにかなり不慣れです。
トレーニング ファイル (たとえばtraining-data.tsv
) は次のようになります。
I O
drove O
to O
Vancouver LOCATION
BC LOCATION
yesterday O
whereO
は、名前付きエンティティではない場合のように、「外側」を意味します。
列間のスペースはtab
です。
ser.gz
それらをファイルに入れません。ser.gz ファイルは、トレーニング プロセスによって作成される分類子モデルです。
分類子をトレーニングするには、次のように実行します。
java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
次のようにmy-classifier.properties
なります。
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
パーサーのトレーニングについて詳しくは、NLTK のドキュメントをご覧になることをお勧めしますhttp://nltk.googlecode.com/svn/trunk/doc/howto/tag.html 。ここで、(パーサーではなく) CRFClassifier をトレーニングする必要があるようです。そのために、この FAQ http://nlp.stanford.edu/software/crf-faq.shtml#aを確認してください。