2

私は現在、派生語を識別するために PorterStemmer を使用しています。しかし、同じ意味を持っていないように見える単語の問題に直面しています。例:
Marketand Marketing
Wineand Winning
etc..
は意味が異なりますが、PorterStemmer はそれらを同じものとして識別します。

このような問題を解決できるオープン ツールはどれですか? コーナーケース付きの辞書?より高度なステマー?

できれば、PHP から簡単にアクセスできるもの。

4

1 に答える 1

3

ステマーは言語の知識がなくても音声ベースで動作するため、これは既知の問題です。レマタイザーが必要です。私は主にJava ベースの Stanford CoreNLP を使用していますが、PHP には何かがあるに違いないと確信しています。

于 2013-01-07T11:03:37.023 に答える