問題タブ [smote]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
249 参照

python - この場合、どのオーバーまたはアンダーサンプリング手法が有効でしょうか?

すべての機能が公称であるデータがあります。SMOTE-NC を適用したところ、ノミナル フィーチャと連続フィーチャの組み合わせでのみ機能することがわかりました。

SMOTEテクニックの同じ論文にSMOTE-N(公称特徴のみを扱う)と呼ばれるテクニックがありますが、Pythonでそのコードや関数を見つけることができません。アプリケーションや類似のものはありますか?または、カテゴリ機能のみで機能する他のオーバーまたはアンダーサンプリング手法はありますか

0 投票する
1 に答える
779 参照

r - R の多数派クラスの観測値を変更せずに、SMOTE を使用してバランスのとれたデータセットを 1:1 で作成します

不均衡なデータセットがあるバイナリ分類の問題に取り組んでいます。各クラスの観測値が 50% である、よりバランスの取れた新しいデータセットを作成したいと考えています。このために、私は が提供する R の SMOTE アルゴリズムを使用していDMwR libraryます。

新しいデータセットでは、多数派クラスの観測値を一定に保ちたいと考えています。

ただし、次の 2 つの問題があります。

  1. SMOTE は多数派クラスの観測数を減らしたり増やしたりします (少数派クラスの数だけ増やしたい)。
  2. SMOTE によって生成された一部の観測値には NA 値が含まれています。

20 個の観測値があると仮定しましょう。多数派クラスの 17 個の観測値と、少数派クラスの 3 個の観測値です。ここに私のコード:

私のコードでperc.over = 400は、少数派クラスの 12 個の新しい観測を作成するように修正perc.under = 100し、多数派クラスに変更を加えないように修正しました。

ただし、newDataSet を確認すると、SMOTE によって多数派クラスの数が 17 から 12 に減少していることがわかります。さらに、生成されたオブザベーションの一部に NA 値があります。

次の図は、得られた結果を示しています。

ここに画像の説明を入力

0 投票する
0 に答える
105 参照

r - Rで不均衡なデータセットのロジスティック回帰を行う

1000 人の従業員のデータセットがあります。これには、800 人のアクティブな従業員と 200 人の退職者がいます。

消耗のリスクを予測するために、ロジスティック回帰を実行しようとしています。

20% しか禁煙していないため、私のデータセットは不均衡です。データのバランスを取るにはどうすればよいですか? Python で SMOTE のことを聞いたことがありますが、それを R にどのように持ち込むのでしょうか?

ありがとうございました