machine-learning - Azure 機械学習の偶数サンプリング

翻译自：https://stackoverflow.com/questions/35627916 2016-02-25T12:53:42.827

522 次

Azure ML で基本的なマルチラベル分類を実行しようとしています。次の形式の基本データがあります。

value_x value_y label
x1      y1      label1
x2      y2      label1
x3      y3      label2
.....

私の問題は、データの約 40% がラベル 1、約 20% がラベル 2、残りが約 10% であるため、私のデータでは特定のラベル (合計 5 つのうち) が過剰に表現されていることです。

これらからサンプリングしてモデルをトレーニングし、各ラベルが同じ量で表されるようにしたいと思います。

ラベル列のサンプリングモジュールで階層化オプションを試してみましたが、最初のデータセットと同じラベル分布のサンプリングしか得られませんでした。

モジュールでこれを行う方法はありますか？

1 に答える 1