3

私はツイッターのメッセージにポジティブ、ネガティブ、ニュートラルのタグを付けています。私は、メッセージのどの割合がポジティブ/ネガティブおよびニュートラルであるべきかを特定するために使用できるいくつかのロジックがあるかどうかを評価しようとしていますか?

たとえば、1000 個の Twitter メッセージを使用して単純ベイズ分類器をトレーニングしている場合、pos : neg : ニュートラルの割合は 33 % : 33 % : 33 % にする必要があります。または、25 % : 25 % : 50 % にする必要があります。

論理的には、私の頭の中では、システムがニュートラルな文をポジティブかネガティブかよりも識別しやすくなるように訓練する (つまり、ニュートラルのサンプルを増やす) ようです。それは本当ですか? または、ここでいくつかの理論が欠けていますか?

ありがとうラフル

4

2 に答える 2

3

あなたが言及している問題は、不均衡問題として知られています。多くの機械学習アルゴリズムは、不均衡なトレーニング データに直面するとパフォーマンスが低下します。つまり、あるクラスのインスタンスが他のクラスのインスタンスよりもはるかに多い場合です。この記事を読む問題の概要と対処方法を把握するため。ナイーブ ベイズやデシジョン ツリーなどの手法では、ランダム オーバーサンプリングなど、何らかの方法でデータのバランスを取ることを常にお勧めします (参考文献で説明されています)。トレーニングセットを現実世界のプロポーションと一致させるという mjv の提案には同意しません。これは場合によっては適切かもしれませんが、あなたの設定にはないと確信しています。あなたが説明したような分類問題の場合、クラス セットのサイズが異なるほど、ほとんどの ML アルゴリズムでクラスを適切に区別する際に問題が発生します。ただし、特定のインスタンスに対する分類子の信頼度が低い場合や、このインスタンスが失敗した場合などのフォールバックとして、どのクラスが実際に最大であるかに関する情報をいつでも使用できます。

もう 1 つ、Twitter メッセージでポジティブ/ネガティブ/ニュートラルを見つけることは、程度の問題のように思えます。そのため、分類の問題ではなく回帰として表示される場合があります。つまり、3 つのクラス スキームの代わりに、メッセージがどの程度肯定的か否定的かを示すスコアを計算したい場合があります。

于 2010-01-14T11:27:09.120 に答える
1

他にも多くの要因がありますが、(トレーニング データの適切な比率と量を決定する上で) 重要な要因は、現実世界における各メッセージ カテゴリ (ポジティブ、ニュートラル、ネガティブ) の予想される分布です。事実上、トレーニング セット(およびコントロール セット) の適切なベースラインは次のとおりです。

  • [質的に]「人口」全体を可能な限り代表する
  • [定量的に] そのようなセットから行われた測定値が統計的に有意であるほど十分に大きい。

トレーニング セット内の特定のカテゴリのメッセージの [相対的な] 豊富さの影響を判断するのは困難です。いずれにせよ、それはより少ない要因であり、むしろ他の要因に非常に敏感な要因です. 全体として、または特定のカテゴリに関して、分類器の精度の向上は、通常、分類器の特定の実装に関連しています (たとえば、ベイジアンか、トークンは何か、ノイズ トークンは除去されているか、近接性は要因、バイグラムなどを使用していますか...)トレーニングセットの純粋に定量的な特性よりも。

上記は一般的に事実に基づいていますが、トレーニング セットのサイズと構成の選択にはある程度役立ちますが、トレーニング データの適切なサイズと構成がいつ提供されたかを事後的に判断する方法があります。
これを達成する 1 つの方法は、コントロール セット、つまり、手動でラベル付けされているがトレーニング セットの一部ではないコントロール セットを導入し、トレーニング セットのさまざまなサブセットを使用してさまざまなテスト ランを測定し、各カテゴリで得られた再現率と精度を測定することです (またはいくつかの同様の精度測定値)、これはコントロール セットの分類です。これらの測定値が統計的に代表的なものを超えて改善または低下しない場合、トレーニング[サブセット]セットのサイズと構成はおそらく正しいものです(オーバーフィッティングセットでない限り:-(ですが、それはまったく別の問題です. .. )

このアプローチは、効果的に必要なトレーニング サブセットの 3 倍から 5 倍のサイズのトレーニング セットを使用することを意味します。これにより、さまざまなテスト用に多くの異なるサブセットを (各カテゴリ内で) ランダムに構築できます。

于 2010-01-13T17:26:28.700 に答える