私は opennlp が初めてで、パーサーをカスタマイズするのに助けが必要です
事前にトレーニングされたモデル en-pos-maxtent.bin で opennlp パーサーを使用して、新しい生の英語の文に音声の対応する部分をタグ付けしました。タグをカスタマイズしたいと思います。
例文:犬が壁を飛び越えた。
en-pos-maxtent.bin を使用して POS タグを付けた後、結果は次のようになります。
犬 - NNP
ジャンプ - VBD
オーバー - イン
-DT
壁 - NN
しかし、私は自分のモデルをトレーニングし、次のようなカスタムタグで単語にタグを付けたいと思っています
犬 - PERP
ジャンプ - ACT
オーバー - OTH
-OTH
壁 - OBJ
ここで、PERP、ACT、OTH、OBJ は私の必需品に合うタグです。これは可能ですか?
ドキュメントのセクションを確認しました。モデルをトレーニングして後で使用するためのコードが提供されています。コードは次のようになります
try {
dataIn = new FileInputStream("en-pos.train");
ObjectStream<String> lineStream = new PlainTextByLineStream(dataIn, "UTF-8");
ObjectStream<POSSample> sampleStream = new WordTagSampleStream(lineStream);
model = POSTaggerME.train("en", sampleStream, TrainingParameters.defaultParams(), null, null);
}
catch (IOException e) {
// Failed to read or parse training data, training failed
e.printStackTrace();
}
この「en-pos.train」が何なのか理解できません。
このファイルの形式は何ですか? ここでカスタムタグを指定できますか、それともこのファイルとは正確には何ですか?
任意の助けをいただければ幸いです
ありがとう