NLTKの品詞タグ付けを試しているとVBP
、への呼び出しの出力に多くのタグがあることに気付きましたnltk.pos_tag
。このタグがスピーチタグセットのブラウンコーパスの部分にないことに気づきました。ただし、これはUPennタグセットの一部です。
nltkはデフォルトでどのタグセットを使用しますか?これは公式ドキュメントまたはapidocsで見つかりません。
NtlkはPennTreebankタグセットを使用します。このリンクをご覧くださいhttp://nltk.org/api/nltk.tag.html
PennTreebankProjectで使用されているPOSタグを使用します。「 http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html」で意味のあるタグのリストを見ることができます