python-3.x - 不均衡なデータに sklearn.train_test_split を使用する

翻译自：https://stackoverflow.com/questions/61885259 2020-05-19T07:16:19.007

6690 次

非常に不均衡なデータセットがあります。sklearn.train_test_split 関数を使用して、列車のデータセットを抽出しました。今、私は列車データセットをオーバーサンプリングしたいので、type1 の数を数えていました (私のデータセットには 2 つのカテゴリとタイプ (type1 と tupe2) がありますが、ほぼすべての列車データは type1 です。したがって、オーバーサンプリングできません。

以前は、作成したコードでトレーニングテストデータセットを分割していました。そのコードでは、すべての type1 データの 0.8 とすべての type2 データの 0.8 がトレーニングデータセットにありました。

このメソッドをtrain_test_split関数またはsklearnの他の分割メソッドで使用するにはどうすればよいですか?

*sklearnまたは独自の方法を使用する必要があります。

python-3.x - 不均衡なデータに sklearn.train_test_split を使用する

3 に答える 3

Related

Reference