java - Apache OpenNLP 品詞タガー: どのデータセットでトレーニングされましたか?

Question

テキストのコレクションで単語クラスを認識するために、Apache OpenNLP 品詞タガーを使用しています。タガーのパフォーマンスを評価しようとしていますが、どのデータでトレーニングされたのでしょうか? 英語用に存在するモデルの名前は、使用されたトレーニングデータに関するヒントを提供しません。

Apache OpenNLP のドキュメントには、POS-Tagger のトレーニングにも使用された可能性があるいくつかのコーパスが記載されています。 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.corpora

英語のPOSモデルがトレーニングされたトレーニングデータを見つける方法を知っている人はいますか?

score 0 · Accepted Answer

はい、その通りです。Opennlp で使用されるコーパスがいくつかあります。
しかし、OpenNLP モデルのページが表示される場合は、以下のようにモデルのトレーニングに使用されるデータセットが示されます。

ここに画像の説明を入力

1 に答える 1