POSタグ付けでモーフ分析をしようとしています。
英語の単語をパラメーターとして渡して呼び出すと、ルートフォームとそのサフィックスを返すツール (python または java スクリプト内から呼び出すことができる) はありますか?
例えば:
input:'liked' を与えると、output:like,ed を取得したい
特定の英語の単語の語幹を取得するために、porter Stemmer と Snowball Stemer (Python スクリプト内) を使用しようとしましたが、接尾辞を取り除くだけなので、常に有効な語幹を与えるわけではありません。
from nltk.stem.porter import *
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("ladies"))
print(porter_stemmer.stem("went"))
出力
ladi
went
例: 入力を 'ladies' として与えましたが、語根形として 'ladi' を返します。これは英語の単語でさえありません。
ステマーは、入力された単語をそのまま返す場合があります。たとえば、入力に「went」を指定すると、これらのステマーは「go」ではなく「went」を語根として返します。
ルートフォームとサフィックスを取得するために使用できるツールを提案してください。