次の問題があります。分類の問題があります。トラック 50,000 行、Y 60 ラベル。しかし、データは不均衡です (1 つのクラスでは 35000 の値、他の 59 のクラスでは 15000 の値、そのうち約 30 の値)。たとえば、X (column_1、column_2、column_3) と Y:
colum_1 colum_2 colum_3 Y
0.5 1 2 1
0.5 1.1 2 1
0.55 0.95 3 1
0.1 1 2 2
2 0.9 3 3
そして、条件付きですべての値が同じになるように、「ノイズの多い」データを追加する必要があります。
colum_1 colum_2 colum_3 Y
0.5 1 2 1
0.5 1.1 2 1
0.55 0.95 3 1
0.1 1 2 2
0.15 0.99 2 2
0.05 1.01 2 2
2 0.9 3 3
1.95 0.95 3 3
2.05 0.85 3 3
これだけはおもちゃの例ですが、私にはたくさんの意味があります。