nlp - トレーニングセット - 肯定文、否定文、中立文の割合

Question

私はツイッターのメッセージにポジティブ、ネガティブ、ニュートラルのタグを付けています。私は、メッセージのどの割合がポジティブ/ネガティブおよびニュートラルであるべきかを特定するために使用できるいくつかのロジックがあるかどうかを評価しようとしていますか?

たとえば、1000 個の Twitter メッセージを使用して単純ベイズ分類器をトレーニングしている場合、pos : neg : ニュートラルの割合は 33 % : 33 % : 33 % にする必要があります。または、25 % : 25 % : 50 % にする必要があります。

論理的には、私の頭の中では、システムがニュートラルな文をポジティブかネガティブかよりも識別しやすくなるように訓練する (つまり、ニュートラルのサンプルを増やす) ようです。それは本当ですか? または、ここでいくつかの理論が欠けていますか？

ありがとうラフル

score 3 · Accepted Answer

あなたが言及している問題は、不均衡問題として知られています。多くの機械学習アルゴリズムは、不均衡なトレーニングデータに直面するとパフォーマンスが低下します。つまり、あるクラスのインスタンスが他のクラスのインスタンスよりもはるかに多い場合です。この記事を読む問題の概要と対処方法を把握するため。ナイーブベイズやデシジョンツリーなどの手法では、ランダムオーバーサンプリングなど、何らかの方法でデータのバランスを取ることを常にお勧めします (参考文献で説明されています)。トレーニングセットを現実世界のプロポーションと一致させるという mjv の提案には同意しません。これは場合によっては適切かもしれませんが、あなたの設定にはないと確信しています。あなたが説明したような分類問題の場合、クラスセットのサイズが異なるほど、ほとんどの ML アルゴリズムでクラスを適切に区別する際に問題が発生します。ただし、特定のインスタンスに対する分類子の信頼度が低い場合や、このインスタンスが失敗した場合などのフォールバックとして、どのクラスが実際に最大であるかに関する情報をいつでも使用できます。

もう 1 つ、Twitter メッセージでポジティブ/ネガティブ/ニュートラルを見つけることは、程度の問題のように思えます。そのため、分類の問題ではなく回帰として表示される場合があります。つまり、3 つのクラススキームの代わりに、メッセージがどの程度肯定的か否定的かを示すスコアを計算したい場合があります。

score 1 · Accepted Answer

他にも多くの要因がありますが、(トレーニングデータの適切な比率と量を決定する上で) 重要な要因は、現実世界における各メッセージカテゴリ (ポジティブ、ニュートラル、ネガティブ) の予想される分布です。事実上、トレーニングセット(およびコントロールセット) の適切なベースラインは次のとおりです。

[質的に]「人口」全体を可能な限り代表する
[定量的に] そのようなセットから行われた測定値が統計的に有意であるほど十分に大きい。

トレーニングセット内の特定のカテゴリのメッセージの [相対的な] 豊富さの影響を判断するのは困難です。いずれにせよ、それはより少ない要因であり、むしろ他の要因に非常に敏感な要因です. 全体として、または特定のカテゴリに関して、分類器の精度の向上は、通常、分類器の特定の実装に関連しています (たとえば、ベイジアンか、トークンは何か、ノイズトークンは除去されているか、近接性は要因、バイグラムなどを使用していますか...)トレーニングセットの純粋に定量的な特性よりも。

上記は一般的に事実に基づいていますが、トレーニングセットのサイズと構成の選択にはある程度役立ちますが、トレーニングデータの適切なサイズと構成がいつ提供されたかを事後的に判断する方法があります。
これを達成する 1 つの方法は、コントロールセット、つまり、手動でラベル付けされているがトレーニングセットの一部ではないコントロールセットを導入し、トレーニングセットのさまざまなサブセットを使用してさまざまなテストランを測定し、各カテゴリで得られた再現率と精度を測定することです (またはいくつかの同様の精度測定値)、これはコントロールセットの分類です。これらの測定値が統計的に代表的なものを超えて改善または低下しない場合、トレーニング[サブセット]セットのサイズと構成はおそらく正しいものです（オーバーフィッティングセットでない限り:-(ですが、それはまったく別の問題です. .. )

このアプローチは、効果的に必要なトレーニングサブセットの 3 倍から 5 倍のサイズのトレーニングセットを使用することを意味します。これにより、さまざまなテスト用に多くの異なるサブセットを (各カテゴリ内で) ランダムに構築できます。

nlp - トレーニング セット - 肯定文、否定文、中立文の割合

2 に答える 2

Related

Reference

nlp - トレーニングセット - 肯定文、否定文、中立文の割合