java - なぜ私が本来あるべきルートワードに従っていないポーターステマーアルゴリズムの結果なのか？

Question

アプリケーションで語幹を取得するには、ポーターステマーアルゴリズムを使用する必要がありますが、http： //www.tartarus.org/~martin/PorterStemmerから取得したアルゴリズムをテストすると、ステミングの結果が正しくありません。語幹の単語、例：幸せ->ハッピウイルス->ヴィルなど私がそれを解決するのを手伝ってくれませんか？

score 2 · Accepted Answer

あなたのリンクからの引用：

2.ステマーが適切な単語を生成しないのはなぜですか？

語幹を削除した後、語幹アルゴリズムが実際の単語を残さないというのは、大雑把な誤りであると見なされることがよくあります。ただし、ステミングの目的は、単語をその「パラダイム」形式にマッピングすることではなく、単語の異体字をまとめることです。

そしてこれに関連して、

3.なぜエラーが発生するのですか？

質問は通常、x2にステミングされると予想されたのに、なぜ単語Xをx1にステミングする必要があるのかという形で出てきます。ステミングアルゴリズムは完全を達成できないことを覚えておくことが重要です。全体として、IRパフォーマンスは向上します（または向上する可能性があります）が、個々のケースでは、エラーが発生する場合があります。もちろん、これは、ステマーのパフォーマンスを向上させるためにステマーに含まれる可能性のある追加のルールを提案することとは別の問題です。

java - なぜ私が本来あるべきルートワードに従っていないポーターステマーアルゴリズムの結果なのか？

1 に答える 1

2.ステマーが適切な単語を生成しないのはなぜですか？

3.なぜエラーが発生するのですか？

Related

Reference