1

テキストのコレクションで単語クラスを認識するために、Apache OpenNLP 品詞タガーを使用しています。タガーのパフォーマンスを評価しようとしていますが、どのデータでトレーニングされたのでしょうか? 英語用に存在するモデルの名前は、使用されたトレーニング データに関するヒントを提供しません。

Apache OpenNLP のドキュメントには、POS-Tagger のトレーニングにも使用された可能性があるいくつかのコーパスが記載されています。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

英語のPOSモデルがトレーニングされたトレーニングデータを見つける方法を知っている人はいますか?

4

1 に答える 1

0

はい、その通りです。Opennlp で使用されるコーパスがいくつかあります。
しかし、OpenNLP モデルのページが表示される場合は、以下のようにモデルのトレーニングに使用されるデータセットが示されます。

ここに画像の説明を入力

于 2015-05-05T06:33:43.177 に答える