テキストのコレクションで単語クラスを認識するために、Apache OpenNLP 品詞タガーを使用しています。タガーのパフォーマンスを評価しようとしていますが、どのデータでトレーニングされたのでしょうか? 英語用に存在するモデルの名前は、使用されたトレーニング データに関するヒントを提供しません。
Apache OpenNLP のドキュメントには、POS-Tagger のトレーニングにも使用された可能性があるいくつかのコーパスが記載されています。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora
英語のPOSモデルがトレーニングされたトレーニングデータを見つける方法を知っている人はいますか?