文字列マッチングを理解する上で:語幹抽出と複数化解除の正確な違いは何ですか?
それとも同じ意味ですか?
まず、ステミングとは、単語をその語幹に還元するプロセスを指します。しかし、それは多くの異なることを意味するかもしれません。ほとんどの言語学者は、少なくとも 2 つの方法を区別しています。
文法上の を削除しますが、派生形態素は削除しません。文法形態素は、特定の文での文法上の役割に関連する単語の構成要素です。
文法形態素と派生形態素の両方を削除します。派生形態素は、別の単語からの派生に関連する単語のコンポーネントです。たとえば、「worker」の「-er」は、「work」からどのように派生したか (または派生したと見なすことができるか) に関連しています。
したがって、depluralizationはかなり珍しい用語ですが、明らかに複数の形態素 (「computers」の末尾の「-s」など) を削除することを指し、一種のステミングの一部であり、具体的には削除の一部です。文法上の(しかし派生的ではない)形態素の。
英語では、名詞の形態は主に複数形 (「computers」) と属格 (2 番目のケース、「computer's」) に限定されているため、英語に関する限り、脱複数化は (ほぼ) (文法上の) ステミングと同義であると見なすことができます。 、少なくともステミングが名詞に適用される程度まで、そしてある程度、形容詞、(例えば、情報検索のコンテキストで)。ただし、動詞が考慮される場合は常に、過去形、受動態、およびその他の屈折形がステミングの対象になります (ただし、複数形化の対象にはなりません)。
さらに、英語以外の言語では、名詞でさえ、格、礼儀正しさのレベル、特殊な種類の複数形 (二重など) などの形態素を含む非常に豊富な形態学を持つ場合があります。そして、脱複数化 (その用語を使用したい場合) は、ステミング プロセス全体のほんの一部を指します。
関連するもう 1 つの用語は、見出し語化です。これは、ステミングと同じ意味で使用されることがよくあります。多くの人 (私を含む) が作ることがわかった 2 つの違いの 1 つは、次のとおりです。
ステミングは、文法的な形態素のように見える単語の一部 (主に語尾) を削除する、ルールベースまたは機械学習ベースの手法を指すために使用されます。
見出し語化は、同じことを行うプロセスを指すために使用されますが、言語の実際の辞書を使用して、非常に不規則な形式 (複数の「女性」など) を処理します。
(しかし、繰り返しになりますが、誰もがこの違いに同意するわけではありません。)
ステミングとは、語根が同じ複数の単語を 1 つの単語に変換することです。元。「cats」、「catlike」、「catty」から「cat」
非複数化とは、複数の単語を単数に変換することです。元。「猫」から「猫」へ
ステミングとアルゴリズムに関する追加情報 http://en.wikipedia.org/wiki/Stemming#Algorithms
それらは同じではありません。単語のステミングにはいくつかのアプローチがありますが、非複数化は 1 つの戦略です。
簡単な例を 1 つだけ示します。ステマーは「childish」を「child」に、または「stemmer」という単語を「stem」にステミングしますが、複数化アルゴリズムはそうしません。