wordnet lemmatizer を試してみましたが、「勉強中」や「待機中」などの一般的な単語が適切に処理されていないことがわかりました。
何か不足していますか?
デフォルトではWordNetLemmatizer
、NLTK の は単語が であると想定しNOUN
ます。http://nltk.org/_modules/nltk/stem/wordnet.htmlを参照
pos
動詞を正しく見出し語化するには、 (品詞)を指定する必要があります。
>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'