2

非常に不均衡なデータセットがあります。sklearn.train_test_split 関数を使用して、列車のデータセットを抽出しました。今、私は列車データセットをオーバーサンプリングしたいので、type1 の数を数えていました (私のデータセットには 2 つのカテゴリとタイプ (type1 と tupe2) がありますが、ほぼすべての列車データは type1 です。したがって、オーバーサンプリングできません。

以前は、作成したコードでトレーニング テスト データセットを分割していました。そのコードでは、すべての type1 データの 0.8 とすべての type2 データの 0.8 がトレーニング データセットにありました。

このメソッドをtrain_test_split関数またはsklearnの他の分割メソッドで使用するにはどうすればよいですか?

*sklearnまたは独自の方法を使用する必要があります。

4

3 に答える 3