4

ツイッターのセンチメント分析のプロジェクトをやっていますが、考えていることがいくつかあります。

ツイートは非常に短い (140 文字未満) ため、どのテキスト分析手法が最も適していますか。例えば。ステミングは長い記事と同じように機能しますか?

nグラムはどうですか?ツイートの短さは彼らにとって最高か最悪か?

k-nearest は、品詞のタグ付けよりも正確でしょうか?

私のカスタム twitter データセットは、時間の経過とともに無関係または破損しますか? ツイッターとその情報は急速に変化するので、私にとっても大きな懸念事項です。

ありがとうございました。

PS: 良い Twitter センチメント データセットはありますか? 定期的に更新してくれたら最高です。

4

2 に答える 2

5

有名人のツイートを分析し、類似点を比較する授業を行いました。

あなたが考えた最大のものは、ツイートの長さです。140 文字では、多くの単語が短縮されているか、通常とは異なる "txt-speech" が使用されています。そのため、 Porterなどのよく知られているステマーでさえ、奇妙な結果が得られます。ほとんどすべてを保持し、単語数、ベクトルなどの後にのみ正規化するのが最善でした.

単語から推定する場合、n-gram と次のリンクは、品質を推測するための大きな要素です。4 グラムのスペースと時間の要件しか許容できませんでしたが、単純な 2 グラムを作成するだけでも大幅に改善されました。

気がつけば先ほど「ほぼ全部」と言いました。人気のある有名人のツイートだけをフォローしている私の場合、彼らのツイートの多くがイベントやスポンサーなどへのリンクや呼びかけであるという問題に遭遇しました。

正確なセンチメントを抽出する方法や、探している測定値を抽出する方法については、最初に単純なベイズ ベースの方法を試してみます。ベースラインとしては単純で比較的正確です。K-means はかなりうまく機能しますが、分散と共分散を考慮していないことに注意してください。それでも、試してみる別のベースラインです。

いくつかの洞察を提供することを願っています。

于 2012-12-05T00:23:42.570 に答える
2

私は最近、Twitter に基づいて映画の分析を行い、人々がその映画について何をツイートしているか、天気が好きかどうかを調べました。このリンクhttp://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/は私を大いに助けてくれました。さらに、感情をカバーするツイート中に一般的に使用されるショートカットのリストを収集する必要がありました.

さらに、人のつぶやきは 3000 (または 3.5k わからない?) までしか保存されず、独自のタイムライン ストリームにも同様の制限があります。したがって、 http://topsy.comを使用して選択したツイートまたはトピックを取得し、そこから特定のトピックの古いツイートを取得して分析することができます。Twitter はあなたのために保存するつもりはないので、将来の参照のために必要なつぶやきを定期的に保存することもできます。

:)

于 2012-12-12T08:51:57.957 に答える