2

感情分析や自然言語処理のバックグラウンドはまったくありませんが、暇なときにそれについて少し読んでいます。reddit、digg、ブログなどのフォーラムのスレッド/コメントを分析する実験を行いたいと思っています。特に、熱狂的な宗教的および政治的スレッドに対する賛成、反対、および中立のコメントの数を数えることに興味があります。議論します。これが私が考えていることです。

1) 元の投稿者が微妙な政治的または宗教的なトピックを定義しているスレッドを見つけます。

2) 各コメントについて、元の投稿者を支持するものとして分類するか、そうでなければ矛盾した立場または中立的な立場をとるものとして分類します。

3) さまざまなメディアを賛成または反対の議論の数と比較して、どのプラットフォームが適切な「討論プラットフォーム」であるかを判断します (つまり、議論の数のバランス)。

私が予想している大きな問題の 1 つは、話題が熱くなると、賛成派と反対派の両方から強い反応が生じるため、単純な喜怒哀楽の感情分析では対応できないことです。私は自分自身の好奇心のためにこのプロジェクトに興味を持っているだけなので、この実験を行うための同様の研究やユーティリティを知っている人がいれば、もっと知りたいです.

このタスクに適したセンチメント分析、単語辞書、トレーニング セットなどを推奨できる人はいますか?

4

2 に答える 2

2

IMHOこれは、セマンティクスに遭遇しないと不可能です。次の文を考えてみましょう。

他の多くの人とは異なり、私は死刑廃止に反対ではありません。

AI は、"not against" やその他の "not ..." スニペットなどの慣用的なサブフレーズを認識する必要がある場合があります。これは不可能ではありません;-)

追加の問題は、「not」は多かれ少なかれストップワードであり、そのランクはおそらく上位 1​​00 位になり、低いエントロピーを引き起こします (ただし、unsed のすべての文に対して高い「意味論的」値があります)。また、「の廃止」を省略すると、文の「極性」も反転することに注意してください。

于 2012-02-19T16:50:10.823 に答える
2

単語のバッグを使用してみることができます[または、n-gramをバッグへのトークンとして使用する]

アプローチは基本的に次のとおりです。

  1. 一連の例を分類し、分類された例から関連する単語をアルゴリズムに抽出させます。
  2. 新しいコメントが与えられたら、関連する単語を抽出し、 k-nearest neighborsを使用して、新しいコメントが賛成/反対/中立であるかどうかを判断します。

また、Apache Mahoutも参照してください。

于 2012-02-19T15:28:13.580 に答える