0

wordnet lemmatizer を試してみましたが、「勉強中」や「待機中」などの一般的な単語が適切に処理されていないことがわかりました。

何か不足していますか?

4

2 に答える 2

3

オンラインのワードネットでわかるように、勉強待機も名詞 (および動詞の動名詞) であるため、それらが自分自身として見出し語化されることは驚くことではありません。

それが不十分な場合は、より「攻撃的な」レンマタイザー (完全に正しいが「可能性が低い」単語の解釈を意図的に無視するもの) を見つける必要があります。または、文全体に基づいて品詞のタグ付けを最初に実行できる場合は、たとえば、特定のインスタンスがstudying名詞ではなく動詞であるかどうかを判断できるレンマタイザー。

于 2010-06-08T17:55:37.473 に答える
2

デフォルトではWordNetLemmatizer、NLTK の は単語が であると想定しNOUNます。http://nltk.org/_modules/nltk/stem/wordnet.htmlを参照

pos動詞を正しく見出し語化するには、 (品詞)を指定する必要があります。

>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'
于 2013-06-27T12:00:06.680 に答える