1

私は現在、twitter のセンチメント分析に関する研究を行っています。私はsentiwordnet極性スコアのような定義済みの語彙リソースを組み合わせたいです。そしてそれを機械学習で進めます。問題は、sentiwordnet の正しいスコアを取得することです。以前の作業は常に、単語の意味の負と正の極性の合計スコアによって選択するだけです。たとえば、「mad」という単語は、否定的な単語として 3 回、肯定的な単語として 2 回表示される可能性があります。以前の作業のほとんどは、各極性を自動的に平均化します。そのため、スコアを取得する前に単語のあいまいさを解消して、実際にセンチワードネットを使用できるようにしたいと考えています。対象文とグロス文の類似度を比較して考えていたのですが、比較する方法はありますか?うまくいくと思いますか?そうでない場合は、あなたのアイデアを共有してください..

私はこの分野にまったく慣れておらず、初心者のPythonプログラマーなので、あなたからのアドバイスが本当に必要です..ありがとう..

4

1 に答える 1

4

これは語義の曖昧さをなくす問題であり、与えられた多義語に対してシステムを適切に機能させることは非常に困難です。単語の正しい意味を判断するために、いくつかの方法 (の組み合わせ) を試すことができます。

  1. 位置のタグ付けは、候補の感覚の数を減らします。

  2. WordNet の単語の各意味の文と語尾の間のコサイン類似度。

  3. Use SenseRelate : 対象単語とその周囲の単語の異なる意味の間の「WordNet 類似度」を測定します。

  4. Use WordNet Domains : データベースには、"ロック" の音楽的な意味を表す "Music" など、各 WordNet の意味に割り当てられたドメイン ラベルが含まれています。グロスと文にある実際の単語を比較する代わりに、それらにあるドメイン ラベルを比較できます。

  5. 語尾や文を単語そのもので表現するのではなく、単語の平均共起ベクトルとして表現する。このようなベクトルは、大規模なテキスト コーパスを使用して構築できます。できれば、あいまいさを解消するテキストと同じアプリケーション ドメインから作成できます。このような共起ベクトル (tf-idf、PCA、SVD) を改良するためのさまざまな手法があり、それらを個別に読む必要があります。

テキストが非常に専門的な分野 (法律など) からのものである場合、精度は高くなります。ただし、一般的な言語のテキストを扱う場合は、多義性が高くない単語 (WordNet で 3 ~ 4 個の意味しか持たない場合) に対してのみ高い精度が期待できます。

于 2013-04-12T09:48:33.480 に答える