string - ステミングアルゴリズムの最も長い一般的なサブストリングソリューションではないのはなぜですか？

Question

単語を共通のルートに一致させる問題であり、検索エンジンの標準的な問題のように思われるステミングについて読んでいました。
この問題について最初に考えたとき、これはN単語に適用される最も長い一般的な部分文字列問題の古典的なアプリケーションだと思いました。
たとえば{computation, compute, computers}、最も長い一般的な部分文字列はcomputeであり、これは語幹/ルートです。
しかし、私はこれが問題の解決策ではないことを読みました。実際、これは考慮事項ではないようであり、他のアプローチ（サフィックスの削除、確率論的など）が標準的な解決策です。

私の質問は、N単語の最も長い一般的な部分文字列がこの問題の解決策ではないのはなぜですか？

score 2 · Accepted Answer

多くの言語では、言語語幹は共通の部分文字列ではないことがよくあります。たとえば、動詞「to be」は多くの言語で非常に不規則です。

英語の名詞でも、{index,index,indexs}などの例外的な例があります。あなたは本当に "index" を語幹として使いたいと思っています。もっと短い「ind」を語幹として使用すると、衝突が発生します。この場合、無所属の政治家は省略された政党を「ind」としています。

string - ステミングアルゴリズムの最も長い一般的なサブストリングソリューションではないのはなぜですか？

1 に答える 1

Related

Reference