特に英語の自然言語処理 (NLP) は、「完全な」レンマタイザーが存在する場合、ステミングが古風なテクノロジになる段階に進化しました。これは、ステマーが単語/トークンの表面形状を無意味な語幹に変更するためです。
この場合も、「完全な」レンマタイザーの定義には疑問があります。NLP タスクが異なれば、異なるレベルのレンマタイゼーションが必要になるからです。たとえば、動詞/名詞/形容詞の形の間で単語を変換します。
ステマー
[in]: having
[out]: hav
レマタイザー
[in]: having
[out]: have
問題は、今日、英語のステマーは役に立っているのかということです。英語の見出し語化ツールはたくさんあるので
nounify
そうでない場合、 、verbify
、adjectify
およびadverbify
前処理を行うことができる堅牢なレンマタイザーを構築するにはどうすればよいでしょうか?見出し語化タスクは、英語と同様の形態学的構造を持つ他の言語にどのように簡単にスケーリングできますか?