この問題を解決するためのアドバイスをお願いします。大学では意見マイニングのタスクを解決してきましたが、Twitter ではアプローチがまったく異なります。たとえば、アンサンブル学習アプローチを使用して、スペインのあるホテルに関するユーザーの意見を分類しました。もちろん、私は肯定的な意見と否定的な意見のトレーニング セットを与えられ、テスト セットでテストしました。しかし、今のツイッターでは、この種の分類が非常に難しいことがわかりました。
トレーニングセットは必要ですか?この質問への答えが肯定的である場合、Twitter は非常に一時的なものだと思いませんか?もし私がそのセットを持っていたら、将来のトピックでの私のパフォーマンスは非常に悪くなりますか?
私は辞書(主に形容詞)を取得し、ツイートをそれと交差させて、用語と文書のマトリックスを取得することを考えていましたが、どのツイッターにもクラスが割り当てられていません。また、ポジティブな形容詞とネガティブな形容詞は、トピックと時間によって異なる場合があります。それで、これに対処する方法は?
言語の問題にどう対処するか?たとえば、英語で書かれたツイートとスペイン語で書かれたツイートを別々に研究したいと思います。
このようなことを行うためにどのプログラミング言語を提案しますか? 私はtm、twitteRのようなRパッケージを試してきました。