48

私は、感情分析システムが実際に機能する前に、「ポジティブ」または「ネガティブ」のいずれかに分類される最初のテキストセットの必要性を説明する多くの記事を読んでいます。

私の質問は次のとおりです。「不幸」をポジティブとして分類することを避けるために、単純な否定形容詞を考慮に入れて、「ポジティブ」形容詞と「ネガティブ」形容詞の基本的なチェックを試みた人はいますか?もしそうなら、なぜこの戦略が現実的でないのかを議論する記事はありますか?

4

7 に答える 7

70

Peter Turney(2002)による古典的な論文は、シードセットとして優れた単語と悪い単語のみを使用して教師なし感情分析(正/負の分類)を行う方法を説明しています。ターニーは、他の単語とこれら2つの形容詞の相互情報量を使用して、74%の精度を達成します。

于 2010-10-14T13:52:24.527 に答える
20

私はあなたが説明しているような訓練されていない感情分析を試みたことがありませんが、私の頭から離れて、あなたは問題を単純化しすぎていると思います。形容詞を分析するだけでは、テキストの感情を十分に把握するのに十分ではありません。たとえば、「愚かな」という言葉を考えてみましょう。単独で、あなたはそれを否定的なものとして分類しますが、製品レビューが「... [x]製品は、この機能を最初に考えないことで競合他社を愚かに見せます...」とすると、そこの感情は間違いなく肯定的です。言葉が現れるより大きな文脈は、このようなものでは間違いなく重要です。これが、訓練されていない言葉の袋のアプローチだけでは(さらに限定された形容詞の袋は言うまでもなく)、この問題に適切に取り組むのに十分ではない理由です。

事前に分類されたデータ(「トレーニングデータ」)は、問題がテキストがポジティブな感情かネガティブな感情かを最初から判断することから、テキストがポジティブなテキストまたはネガティブなテキストに似ているかどうかを判断することへと移行するのに役立ちます。そのように分類します。もう一つの大きなポイントは、感情分析などのテキスト分析は、ドメインによるテキストの特性の違いによって大きく影響を受けることが多いということです。これが、トレーニングするための優れたデータセット(つまり、作業しているドメイン内からの正確なデータであり、分類する必要のあるテキストを代表するものであることが望ましい)を持つことが、優れたデータを構築することと同じくらい重要である理由です。分類するシステム。

正確には記事ではありませんが、それがお役に立てば幸いです。

于 2010-10-13T06:35:03.143 に答える
8

larsmansが言及したTurney(2002)の論文は、優れた基本的な論文です。新しい研究では、Li and He [2009]は、潜在的ディリクレ割り当て(LDA)を使用して、完全に教師なしの方法で記事の全体的な感情とトピックを同時に分類できるモデルをトレーニングするアプローチを紹介しています。彼らが達成する精度は84.6%です。

于 2012-02-02T16:19:25.970 に答える
4

レビューで意見をマイニングするために、感情分析のいくつかの方法を試しました。私にとって最も効果的なのは、Liuの本で説明されている方法です。http ://www.cs.uic.edu/~liub/WebMiningBook.htmlこの本では、Liuと他の人が多くの戦略を比較し、感情分析とオピニオンマイニング。

私の主な目標は意見の特徴を抽出することでしたが、この特徴の正と負の分類を検出するために感情分類器を実装しました。

前処理(単語のトークン化、品詞タグ付け)とトリグラムの作成にNLTKを使用しました。次に、このテイクイット内のベイズ分類器を使用して、劉が特定した他の戦略と比較しました。

方法の1つは、この情報を表現するすべてのトリガーをpos / negとしてタグ付けし、このデータに分類子を使用することに依存しています。私が試した他の方法(私のデータセットでは約85%の精度)は、文中のすべての単語とpos /negクラスのシードとして優れた/悪い単語のPMI(時間的相互情報量)のスコアの合計を計算することでした。

于 2012-03-07T15:35:47.197 に答える
2

感情の辞書を使用してキーワードを見つけ、文レベルで感情ラベルを予測してみました。語彙の一般性(ドメインに依存しない)を考えると、結果は約61%でした。この論文は私のホームページにあります。

やや改良されたバージョンでは、否定副詞が考慮されました。EmoLibという名前のシステム全体がデモに利用できます。

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

よろしく、

于 2010-10-13T07:33:56.187 に答える
2

デビッド、

これが役立つかどうかはわかりませんが、感情分析にNLTKを使用することに関するJacobPerkinのブログ投稿を調べることをお勧めします。

于 2010-11-22T08:28:56.493 に答える
0

感情分析には、テキストのチャンクの根底にある「アバウトネス」を発見しようとする他の種類のテキスト分析のように、魔法の「ショートカット」はありません。単純な「形容詞」チェックまたは同様のアプローチを通じて実績のあるテキスト分析方法をショートカットしようとすると、あいまいさ、誤った分類などが発生し、1日の終わりに感情の読み取りの精度が低下します。ソース(Twitterなど)が簡潔であればあるほど、問題は難しくなります。

于 2011-09-18T15:10:03.150 に答える