テキスト分類の問題に直面しており、例を 34 のグループに分類する必要があります。
問題は、34 グループのトレーニング データのサイズのバランスが取れていないことです。2000 以上の例があるグループもあれば、100 以上の例しかないグループもあります。
一部の小さなグループでは、分類精度が非常に高くなります。これらのグループには、認識して分類するための特定のキーワードがあると思います。一部では精度が低く、予測は常に大きなグループに当てはまります。
「低周波事例問題」の対処法が知りたいです。小グループのデータをコピーして複製するだけでうまくいきますか? または、トレーニング データを選択し、データ サイズを拡張してバランスを取る必要がありますか? 助言がありますか?