ステミングは精度に悪影響を及ぼしますが、テキスト分類の再現率は向上します。それはどのように起こりますか?ステム処理を行うと、クエリとサンプル ドキュメント間の一致数が増えますよね?
2 に答える
再現率を上げると、一般化を行うことは常に同じです。そのため、精度が失われています。結合単語を一緒にステミングします。
一方では、一緒にマージする必要がある単語 (「adhere」や「adhesion」など) は、ステミング後も別個のままになる場合があります。他方では、本当に異なる単語が誤って混同される可能性があります (例: 「実験」と「経験」)。これらは、それぞれアンダーステミング エラーとオーバーステミング エラーとして知られています。
ステミングが多すぎると精度が低下し、ステミングが不足すると再現率が低下します。したがって、ステミングがまったくないということは、オーバーステミング エラーがなく、最大アンダーステミング エラーがないことを意味するため、再現率が低く、精度が高くなります。
ところで、精度とは、見つかった「ドキュメント」のうち、探していたドキュメントがいくつあるかを意味します。リコールとは、すべての「ドキュメント」のうち、どれだけ正しかったかを意味します。
Query_expansion のウィキペディアのエントリから:
ユーザーが入力した用語をステミングすることにより、ユーザーが入力した用語の代替語形も一致するため、より多くのドキュメントが一致し、合計の再現率が増加します。これは、精度を下げることを犠牲にして行われます。ユーザーが入力した用語の同義語を検索するために検索クエリを拡張することにより、再現率も向上しますが、精度が犠牲になります。これは、精度の計算方法の方程式の性質によるものです。再現率の要因が分母の一部であることを考えると、再現率が大きくなると暗黙的に精度が低下します。また、精度に関係なく、多くのユーザーがより多くの結果をくまなく調べることを望んでいないことを考えると、より大きなリコールは全体的な検索結果の品質に悪影響を与えると推測されます.