私は、マンチェスター ユナイテッド フットボール クラブに関する 3 日間のツイートを分析し、人々がそれらをポジティブに捉えているかネガティブに捉えているかを判断するセンチメント分析ツールを作成しようとしています。私は現在、このガイドをガイダンスとして使用しています (私のコーディング言語は Java です)。
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
Apache Flume を使用してツイートを Apache Hadoop にダウンロードしてから、Apache Hive を使用してツイートをクエリするつもりです。Apache Oozie を使用して、ツイートを効果的に分割することもできます。
上に投稿したリンクでは、ツイートを分析するために作成する分類器をトレーニングするためのトレーニング データセットが必要であると述べられています。提供されているサンプル分類子には、約 5000 のツイートがあります。大学の夏のプロジェクトでこれを行っているので、おそらく独自のデータセットを作成する必要があると感じています。
この分類子を有効にするには、最低どれくらいのツイートを使用する必要がありますか? おすすめの番号はありますか?たとえば、手動で 100 件、500 件、または 1000 件のツイートを分析した場合、効果があるでしょうか?