7

簡単な質問: 単語を語幹化または見出し語化するのはいつですか? ステミングはすべての nlp プロセスに役立ちますか? または、完全な形式の単語を使用すると精度や精度が向上する可能性があるアプリケーションはありますか?

4

3 に答える 3

10

機械学習ベースの NLP のコンテキストでは、ステミングによってトレーニング データがより高密度になります。これにより、辞書のサイズ (コーパスで使用される単語の数) が 2 倍または 3 分の 1 に縮小されます (たとえば、動詞の場合、1 つの語幹から数十の単語が生成される可能性があるフランス語のような多くの語形変化のある言語の場合はさらに削減されます)。

コーパスは同じですが、入力次元が少ない場合、ML はより適切に機能します。リコールは本当に良いはずです。

欠点は、場合によっては実際の単語 (語幹ではなく) が違いを生む場合、システムがそれを活用できないことです。そのため、精度が低下する可能性があります。

于 2013-01-25T15:49:12.700 に答える
3

単語を語幹化または見出し語化するのはいつですか?

ステミングは、単語の有効な「正規化」手法です。ドキュメントのコーパスを検索する例を考えてみましょう。より具体的には、ある種の検索インデックスで検索できるように一連のドキュメントを準備する場合があります。検索インデックスを作成するとき、類似した用語を取得し、それらをルート ワードにステミングして、単語の他の形式での検索がドキュメントと一致するようにします。

e について、次の用語を考慮してください。

  • インデクサー
  • 索引付け
  • インデックス可能

これらのそれぞれをindex検索インデックスの用語に変換するとしましょう。これらのいずれかに遭遇したときはいつでも、ドキュメントに存在する単語の代わりにルートフォーム "index" を使用します。

同様に、 などの検索クエリを実行する前に、同じ手順を実行しますdatabase indexing

クエリは に変換されdatabase index、検索結果の関連性を高めるのと同様に、任意の形式の「インデックス」を含むすべてのドキュメントに一致します。

全文検索では、文法的に正しいフレーズをスペルアウトするフレーズ検索を実行するときに、語幹を維持すると便利です。正確なフレーズのようなもの"Doug likes indexing databases"。そのコンテキストでは、全文検索で完全な「索引付け」が必要になります。

于 2013-01-24T21:05:58.093 に答える
2

ステミングは、さまざまなタスクに非常に役立ちます。たとえば、ドキュメントの類似性を調べている場合は、データを正規化する方がはるかに優れています。属格、ストップ ワードを削除し、すべてを小文字にし、句読点を削除し、単一化します。別の提案は、単語を並べ替えることです。これはバイグラムではそれほど悪くはありませんが、より大きな項では奇妙に見えるかもしれません。

Stack Exchange's
stack exchange
STACK EXCHANGE
Exchange, Stack
Stack Exchange (WEB)
StAcK Exchanges

これらはすべて、さらなる計算のために「交換スタック」に正規化する必要があります。

于 2013-01-25T19:32:24.233 に答える