データ セット (6 つのターゲット クラス) で複数クラスの分類の問題があります。トレーニング データのクラス ラベルの分布は偏っています。以下は、各クラス ラベル (1 ~ 6) の分布です。
(array([174171, 12, 29, 8285, 9996, 11128]),
vowpal wabbit の oaa スキームを使用して分類し、各例でデフォルトの重み 1.0 を試しました。ただし、ほとんどのモデルでは、これはモデルが評価のすべての例で 1.0 を予測するという結果になります (ラベル 1 はトレーニング セットで非常に大きな表現を持っているため)。
分類子のパフォーマンスを向上させるために、各クラスの例に適用できるさまざまな重みを試してみます。
各例の重みを決定するためのテクニックに関する指針や実用的なヒントは非常に役立ちます。考えられる手法の 1 つは、頻度に応じて逆比率で例を重み付けすることでした。残念ながら、これにより、分類器がラベル 2 および 3 に大きく偏り、評価のほとんどすべてに対して 2 および 3 を予測する結果になるようです。
モデルの選択は、重みの決定に影響しますか。私はニューラル ネットワークとロジスティックおよびヒンジ損失関数を実験しています。