問題タブ [imbalanced-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 不均衡なデータに sklearn.train_test_split を使用する
非常に不均衡なデータセットがあります。sklearn.train_test_split 関数を使用して、列車のデータセットを抽出しました。今、私は列車データセットをオーバーサンプリングしたいので、type1 の数を数えていました (私のデータセットには 2 つのカテゴリとタイプ (type1 と tupe2) がありますが、ほぼすべての列車データは type1 です。したがって、オーバーサンプリングできません。
以前は、作成したコードでトレーニング テスト データセットを分割していました。そのコードでは、すべての type1 データの 0.8 とすべての type2 データの 0.8 がトレーニング データセットにありました。
このメソッドをtrain_test_split関数またはsklearnの他の分割メソッドで使用するにはどうすればよいですか?
*sklearnまたは独自の方法を使用する必要があります。
r - 合成データの作成 - データセットのバランスを取る
ポケモンのデータセットを分析しています。ランダム フォレストを作成して、ポケモンが伝説になるかどうかを予測したいと思います。
現在、118 個の観測値と 44 列で構成されるトレーニング データセットがあります。
ご覧のとおり、ダミー変数がありますが、ターゲット クラスもあります。is_legendary
問題は、データのバランスが取れていないことです。伝説のポケモンに関連する観測の数は、伝説のポケモン以外のポケモンよりも大幅に少なくなっています。そのため、合成データを作成してデータセットのバランスを取りたいと考えています。とのことSMOTE function
でしたが、エラーが発生しました。以下のコード全体をご覧ください。
エラーは次のとおりです。