他にも多くの要因がありますが、(トレーニング データの適切な比率と量を決定する上で) 重要な要因は、現実世界における各メッセージ カテゴリ (ポジティブ、ニュートラル、ネガティブ) の予想される分布です。事実上、トレーニング セット(およびコントロール セット) の適切なベースラインは次のとおりです。
- [質的に]「人口」全体を可能な限り代表する
- [定量的に] そのようなセットから行われた測定値が統計的に有意であるほど十分に大きい。
トレーニング セット内の特定のカテゴリのメッセージの [相対的な] 豊富さの影響を判断するのは困難です。いずれにせよ、それはより少ない要因であり、むしろ他の要因に非常に敏感な要因です. 全体として、または特定のカテゴリに関して、分類器の精度の向上は、通常、分類器の特定の実装に関連しています (たとえば、ベイジアンか、トークンは何か、ノイズ トークンは除去されているか、近接性は要因、バイグラムなどを使用していますか...)トレーニングセットの純粋に定量的な特性よりも。
上記は一般的に事実に基づいていますが、トレーニング セットのサイズと構成の選択にはある程度役立ちますが、トレーニング データの適切なサイズと構成がいつ提供されたかを事後的に判断する方法があります。
これを達成する 1 つの方法は、コントロール セット、つまり、手動でラベル付けされているがトレーニング セットの一部ではないコントロール セットを導入し、トレーニング セットのさまざまなサブセットを使用してさまざまなテスト ランを測定し、各カテゴリで得られた再現率と精度を測定することです (またはいくつかの同様の精度測定値)、これはコントロール セットの分類です。これらの測定値が統計的に代表的なものを超えて改善または低下しない場合、トレーニング[サブセット]セットのサイズと構成はおそらく正しいものです(オーバーフィッティングセットでない限り:-(ですが、それはまったく別の問題です. .. )
このアプローチは、効果的に必要なトレーニング サブセットの 3 倍から 5 倍のサイズのトレーニング セットを使用することを意味します。これにより、さまざまなテスト用に多くの異なるサブセットを (各カテゴリ内で) ランダムに構築できます。