2

この問題を解決するためのアドバイスをお願いします。大学では意見マイニングのタスクを解決してきましたが、Twitter ではアプローチがまったく異なります。たとえば、アンサンブル学習アプローチを使用して、スペインのあるホテルに関するユーザーの意見を分類しました。もちろん、私は肯定的な意見と否定的な意見のトレーニング セットを与えられ、テスト セットでテストしました。しかし、今のツイッターでは、この種の分類が非常に難しいことがわかりました。

  1. トレーニングセットは必要ですか?この質問への答えが肯定的である場合、Twitter は非常に一時的なものだと思いませんか?もし私がそのセットを持っていたら、将来のトピックでの私のパフォーマンスは非常に悪くなりますか?

  2. 私は辞書(主に形容詞)を取得し、ツイートをそれと交差させて、用語と文書のマトリックスを取得することを考えていましたが、どのツイッターにもクラスが割り当てられていません。また、ポジティブな形容詞とネガティブな形容詞は、トピックと時間によって異なる場合があります。それで、これに対処する方法は?

  3. 言語の問題にどう対処するか?たとえば、英語で書かれたツイートとスペイン語で書かれたツイートを別々に研究したいと思います。

  4. このようなことを行うためにどのプログラミング言語を提案しますか? 私はtm、twitteRのようなRパッケージを試してきました。

4

3 に答える 3

1
  1. 確かに、センチメントの使われ方は数ヶ月間変わらないと思います。最悪の場合、再ラベル付けして再トレーニングします。私の経験では、教師なし学習の産業への応用に関しては、ひどい実績があります。
  2. 感情については、感情/形容詞の辞書が必要です。いくつかのデータセットがありますが、それらがどこにあるか忘れてしまいました。より良い情報で以前の質問に答えたかもしれません。
  3. 英語のつぶやきをするだけです。言語分類器を作成するのはかなり簡単ですが、小さなことから始めたいので、気楽に始めてください。
  4. 少量のコードで簡単に実行したい場合は Python (NLTK)。Javaには優れたNLP機能がありますが、Pythonとそのライブラリははるかにユーザーフレンドリーです
于 2012-05-02T21:03:32.450 に答える