問題タブ [smote]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - この場合、どのオーバーまたはアンダーサンプリング手法が有効でしょうか?
すべての機能が公称であるデータがあります。SMOTE-NC を適用したところ、ノミナル フィーチャと連続フィーチャの組み合わせでのみ機能することがわかりました。
SMOTEテクニックの同じ論文にSMOTE-N(公称特徴のみを扱う)と呼ばれるテクニックがありますが、Pythonでそのコードや関数を見つけることができません。アプリケーションや類似のものはありますか?または、カテゴリ機能のみで機能する他のオーバーまたはアンダーサンプリング手法はありますか
r - R の多数派クラスの観測値を変更せずに、SMOTE を使用してバランスのとれたデータセットを 1:1 で作成します
不均衡なデータセットがあるバイナリ分類の問題に取り組んでいます。各クラスの観測値が 50% である、よりバランスの取れた新しいデータセットを作成したいと考えています。このために、私は が提供する R の SMOTE アルゴリズムを使用していDMwR library
ます。
新しいデータセットでは、多数派クラスの観測値を一定に保ちたいと考えています。
ただし、次の 2 つの問題があります。
- SMOTE は多数派クラスの観測数を減らしたり増やしたりします (少数派クラスの数だけ増やしたい)。
- SMOTE によって生成された一部の観測値には NA 値が含まれています。
20 個の観測値があると仮定しましょう。多数派クラスの 17 個の観測値と、少数派クラスの 3 個の観測値です。ここに私のコード:
私のコードでperc.over = 400
は、少数派クラスの 12 個の新しい観測を作成するように修正perc.under = 100
し、多数派クラスに変更を加えないように修正しました。
ただし、newDataSet を確認すると、SMOTE によって多数派クラスの数が 17 から 12 に減少していることがわかります。さらに、生成されたオブザベーションの一部に NA 値があります。
次の図は、得られた結果を示しています。
r - Rで不均衡なデータセットのロジスティック回帰を行う
1000 人の従業員のデータセットがあります。これには、800 人のアクティブな従業員と 200 人の退職者がいます。
消耗のリスクを予測するために、ロジスティック回帰を実行しようとしています。
20% しか禁煙していないため、私のデータセットは不均衡です。データのバランスを取るにはどうすればよいですか? Python で SMOTE のことを聞いたことがありますが、それを R にどのように持ち込むのでしょうか?
ありがとうございました