3

POSタグ付けでモーフ分析をしようとしています。

英語の単語をパラメーターとして渡して呼び出すと、ルートフォームとそのサフィックスを返すツール (python または java スクリプト内から呼び出すことができる) はありますか?

例えば:

input:'liked' を与えると、output:like,ed を取得したい

特定の英語の単語の語幹を取得するために、porter Stemmer と Snowball Stemer (Python スクリプト内) を使用しようとしましたが、接尾辞を取り除くだけなので、常に有効な語幹を与えるわけではありません。

from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("ladies"))
print(porter_stemmer.stem("went"))

出力

ladi   
went

例: 入力を 'ladies' として与えましたが、語根形として 'ladi' を返します。これは英語の単語でさえありません。

ステマーは、入力された単語をそのまま返す場合があります。たとえば、入力に「went」を指定すると、これらのステマーは「go」ではなく「went」を語根として返します。

ルートフォームとサフィックスを取得するために使用できるツールを提案してください。

4

1 に答える 1

4
from nltk.stem.wordnet import WordNetLemmatizer
WNL = WordNetLemmatizer()
WNL.lemmatize('ladies')
WNL.lemmatize('went')

(ここで何か言いたいことを見つけようとしていますが、そのコードは自明だと思いますか?)

于 2014-09-18T14:10:20.167 に答える