0

私はテキスト分析にレキシコンベースのアプローチを使用しています。基本的に、ポジティブ/ネガティブ/怒り/悲しい/幸せなどのマークが付いた単語の長いリストがあります。分析したいテキストの単語をレキシコンの単語と照合して、自分のテキストかどうかを判断できるようにします。ポジティブ/ネガティブ/怒り/悲しい/幸せなどです。

しかし、私が分析したいテキストの長さはさまざまです。それらのほとんどは100語未満ですが、次の例を検討してください。

ジョンは幸せです。(カテゴリ「幸せ」の1単語で、幸せのスコアは33%になります)

ジョンは昨日メアリーに幸せだと言った。(12.5%満足)

したがって、異なる文を比較すると、最初の文は2番目の文よりも「幸せ」であるように見えます。これは、文が短く、「幸せ」という単語に不釣り合いな%を与えるからです。

おそらく文の長さを考慮に入れることによって、より公平な比較を行うことができると考えることができるアルゴリズムまたは計算方法はありますか?

4

2 に答える 2

3

多くの人が指摘したように、構文ツリーにたどり着く必要があります。これは、この作業に似ています。

構文解析

また、次のことも考慮してください。
ジョンは昨日、メアリー幸せだと言いました。
ジョンは昨日メアリーに彼女が幸せだと言った.

2 番目のものは John の幸せについて何も語っていませんが、単純なアルゴリズムはすぐに混乱してしまいます。したがって、構文解析に加えて、代名詞は主語へのリンクを表す必要があります。特に、これはアルゴリズムが John がheで Mary が であることを認識している必要があることを意味しsheます。

于 2012-08-03T12:07:17.537 に答える
2

によって提起された否定の問題を無視してHappyTimeGopher、文中の幸せな言葉の数を文の長さで単純に割ることができます。あなたは得る:

ジョンは幸せです。(「幸せ」カテゴリの 1 単語 / 文章中の 3 単語 = 幸せの 33% のスコア)

ジョンは昨日メアリーに幸せだと言いました。(1/8 = 12.5% 幸せ)

単語リストベースのアプローチは、これまでのところしか機能しないことに注意してください。「食事には満足したが、ウェイターはひどかった」のスコアは何点ですか? より洗練されたシステムを使用することを検討してください。以下の論文は、調査を開始するのに適した場所です。

  • Choi, Y. & Cardie, C. (2008)。サブセンテンシャル感情分析のための構造的推論としての合成セマンティクスによる学習。
  • モイラネン、K.、およびプルマン、S. (2009)。マルチエンティティのセンチメント スコアリング。
  • Pang, B. & Lee, L. (2008)。意見マイニングと感情分析。
  • Pang, B., Lee, L., & Vaithyanathan, S. (2002). いいね?: 機械学習技術を使用した感情分類。
  • ターニー、PD、およびリットマン、ML (2003)。賞賛と批判の測定: 連想からの意味的指向の推論。
于 2012-08-03T10:00:55.357 に答える