単語を共通のルートに一致させる問題であり、検索エンジンの標準的な問題のように思われるステミングについて読んでいました。
この問題について最初に考えたとき、これはN
単語に適用される最も長い一般的な部分文字列問題の古典的なアプリケーションだと思いました。
たとえば{computation, compute, computers}
、最も長い一般的な部分文字列はcompute
であり、これは語幹/ルートです。
しかし、私はこれが問題の解決策ではないことを読みました。実際、これは考慮事項ではないようであり、他のアプローチ(サフィックスの削除、確率論的など)が標準的な解決策です 。
私の質問は、N
単語の最も長い一般的な部分文字列がこの問題の解決策ではないのはなぜですか?