4

私は opennlp が初めてで、パーサーをカスタマイズするのに助けが必要です

事前にトレーニングされたモデル en-pos-maxtent.bin で opennlp パーサーを使用して、新しい生の英語の文に音声の対応する部分をタグ付けしました。タグをカスタマイズしたいと思います。

例文:犬が壁を飛び越えた。

en-pos-maxtent.bin を使用して POS タグを付けた後、結果は次のようになります。

犬 - NNP

ジャンプ - VBD

オーバー - イン

-DT

壁 - NN

しかし、私は自分のモデルをトレーニングし、次のようなカスタムタグで単語にタグを付けたいと思っています

犬 - PERP

ジャンプ - ACT

オーバー - OTH

-OTH

壁 - OBJ

ここで、PERP、ACT、OTH、OBJ は私の必需品に合うタグです。これは可能ですか?

ドキュメントのセクションを確認しました。モデルをトレーニングして後で使用するためのコードが提供されています。コードは次のようになります

try {
  dataIn = new FileInputStream("en-pos.train");
  ObjectStream<String> lineStream = new PlainTextByLineStream(dataIn, "UTF-8");
  ObjectStream<POSSample> sampleStream = new WordTagSampleStream(lineStream);

  model = POSTaggerME.train("en", sampleStream, TrainingParameters.defaultParams(), null, null);
}
catch (IOException e) {
  // Failed to read or parse training data, training failed
  e.printStackTrace();
}

この「en-pos.train」が何なのか理解できません。

このファイルの形式は何ですか? ここでカスタムタグを指定できますか、それともこのファイルとは正確には何ですか?

任意の助けをいただければ幸いです

ありがとう

4

2 に答える 2

4

http://opennlp.apache.org/documentation/manual/opennlp.html#tools.postagger.trainingで文書化されています- 1 行に 1 文で、単語はタグからアンダースコアで区切られています。

About_IN 10_CD Euro_NNP ,_, I_PRP reckon_VBP ._.
That_DT sounds_VBZ good_JJ ._.
于 2013-10-23T17:33:37.377 に答える