3

私は、マンチェスター ユナイテッド フットボール クラブに関する 3 日間のツイートを分析し、人々がそれらをポジティブに捉えているかネガティブに捉えているかを判断するセンチメント分析ツールを作成しようとしています。私は現在、このガイドをガイダンスとして使用しています (私のコーディング言語は Java です)。

http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html

Apache Flume を使用してツイートを Apache Hadoop にダウンロードしてから、Apache Hive を使用してツイートをクエリするつもりです。Apache Oozie を使用して、ツイートを効果的に分割することもできます。

上に投稿したリンクでは、ツイートを分析するために作成する分類器をトレーニングするためのトレーニング データセットが必要であると述べられています。提供されているサンプル分類子には、約 5000 のツイートがあります。大学の夏のプロジェクトでこれを行っているので、おそらく独自のデータセットを作成する必要があると感じています。

この分類子を有効にするには、最低どれくらいのツイートを使用する必要がありますか? おすすめの番号はありますか?たとえば、手動で 100 件、500 件、または 1000 件のツイートを分析した場合、効果があるでしょうか?

4

2 に答える 2

1

分類子をトレーニングするための正確な数はありません。すべてのデータが同じ属性を持つ大規模なデータセットを持つことができるので、分類器はパターンを記憶できます。または、それほど大きくないデータセットと適切なインスタンスを持つことができるので、分類器はより良い結果を得ることができます。

投稿で提供されるサンプル データセットを使用して分類器をトレーニングし、クロス検証を使用して最適な分類器を取得できます。

最適な分類器を取得したら、投稿で提供されている分類器と分類器を比較して、より良いものを選択できます。

于 2013-07-24T20:38:06.657 に答える
0

データセットはすべて異なり、その内容は時間の経過とともに (予期せず) 変化することがよくあります。言語の使用が均一であるため、100 個の注釈付きツイートで非常に優れたパフォーマンスを達成できる場合があります。場合によっては、数万のツイートでは不十分な場合があります。そして、自分の分類器が優れていると思った時点で 2 日が経過し、人々が話す内容や話し方が変わります。その同じ分類子は今では役に立ちません。変化するデータ ストリームにおけるアクティブ ラーニングとコンテンツ分析に関する多くの研究があります。ここここには、研究を開始するためのいくつかの論文があります。

PS 可能であれば、既製のデータ セットを使用してください。個人的な経験から、データの注釈付けは非常に困難です。ツイートは読むのが非常に退屈で、1 時間見つめていると、多くの間違いを犯し、退屈してしまいます。

于 2013-07-25T10:42:27.203 に答える