3

テキスト分類の問題に直面しており、例を 34 のグループに分類する必要があります。

問題は、34 グループのトレーニング データのサイズのバランスが取れていないことです。2000 以上の例があるグループもあれば、100 以上の例しかないグループもあります。

一部の小さなグループでは、分類精度が非常に高くなります。これらのグループには、認識して分類するための特定のキーワードがあると思います。一部では精度が低く、予測は常に大きなグループに当てはまります。

「低周波事例問題」の対処法が知りたいです。小グループのデータをコピーして複製するだけでうまくいきますか? または、トレーニング データを選択し、データ サイズを拡張してバランスを取る必要がありますか? 助言がありますか?

4

1 に答える 1

4

正則化は、スプリアス相関の影響を減らすことで、不均衡なクラスの問題を解決できる場合がありますが、それはデータによって異なります。解決策の 1 つは、小さいクラスを単純にオーバーサンプリングするか、小さいクラスのデータ ポイントの重みを増やして、分類子がより注意を払うようにすることです。

「クラスの不均衡」問題を検索すると、より高度な手法を見つけることができます。テキスト分類の問題に適用/作成されたものはそれほど多くありませんが、テキストの問題を処理するときに大量のデータが存在することは非常に一般的であるためです。そのため、そのような高次元空間でうまく機能するものがどれだけあるかはわかりません。

于 2013-07-12T18:01:02.190 に答える