Python で wordnet lemmatizer を使用したかったのですが、デフォルトの pos タグが NOUN であり、pos タグが明示的に VERB として指定されていない限り、動詞の正しい見出し語が出力されないことがわかりました。
私の質問は、上記の見出し語化を正確に実行するためのベストショットは何ですか?
を使用して投稿タグ付けをnltk.pos_tag
行いましたが、ツリーバンクの投稿タグをワードネット互換の投稿タグに統合することに迷っています。助けてください
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
NN、JJ、VB、RB で出力タグを取得します。これらをワードネット互換のタグに変更するにはどうすればよいですか?
また、タグ付けされたコーパスを使用してトレーニングnltk.pos_tag()
する必要がありますか?それとも、データで直接使用して評価できますか?