問題タブ [smote]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

155 問題

0 投票する

1 に答える

72 参照

python-3.x - 非常に不均衡な分類ステップのステップ。データをアップサンプリングしてアンダーサンプリングするか、不均衡なクラスを単にアップサンプリングするか

非常に不均衡なバイナリ (はい/いいえ) 分類データセットがあります。データセットには現在、約 0.008% の「はい」があります。

SMOTE を使用してデータセットのバランスを取る必要があります。

不均衡に対処するための2つの方法に出会いました。変数に対して MinMaxScaler を実行した後の次の手順

これにより、データセットのサイズが 240 万行から 732000 行に減少し、不均衡が 0.008% から 33.33% に改善されます。

このアプローチをしながら

これにより、行数が 240 万行から 480 万行に増加し、不均衡は 50% になりました。

これらの手順の後、データをトレーニングテストデータセットに分割する必要があります。

ここで正しいアプローチは何ですか？

これらの方法を選択する前に、どのような要因を考慮する必要がありますか?

サンプリングされていないデータに対して X_test、y_test を実行する必要があります。これは、データを分割し、トレーニングデータに対してのみアップサンプリング/アンダーサンプリングを行うことを意味します。

ありがとうございました。

2020-05-13T18:08:08.300

0 投票する

1 に答える

555 参照

python - SMOTE は、全カテゴリデータセットの配列サイズ / ValueError を指定しています

カテゴリデータのオーバーサンプリングに SMOTE-NC を使用しています。1 つの機能と 10500 のサンプルしかありません。

以下のコードを実行すると、エラーが発生します。

コード：

私が正しく理解している場合、形状はX_new(n_samples, n_features) である必要があり、これは 10500 X 1 です。ValueError で形状 = (10500,0) と見なされている理由がわかりません。

誰かがここで私を助けてくれますか?

python machine-learning imbalanced-data imblearn smote

2020-05-15T17:18:13.837

0 投票する

0 に答える

38 参照

r - 合成データの作成 - データセットのバランスを取る

ポケモンのデータセットを分析しています。ランダムフォレストを作成して、ポケモンが伝説になるかどうかを予測したいと思います。

現在、118 個の観測値と 44 列で構成されるトレーニングデータセットがあります。

ご覧のとおり、ダミー変数がありますが、ターゲットクラスもあります。is_legendary

問題は、データのバランスが取れていないことです。伝説のポケモンに関連する観測の数は、伝説のポケモン以外のポケモンよりも大幅に少なくなっています。そのため、合成データを作成してデータセットのバランスを取りたいと考えています。とのことSMOTE functionでしたが、エラーが発生しました。以下のコード全体をご覧ください。

エラーは次のとおりです。

r machine-learning imbalanced-data smote

2020-05-21T09:52:55.297

1 2 3 4 5 6 7 8 9 10

問題タブ [smote]

python-3.x - 非常に不均衡な分類ステップのステップ。データをアップサンプリングしてアンダーサンプリングするか、不均衡なクラスを単にアップサンプリングするか

python - SMOTE は、全カテゴリ データセットの配列サイズ / ValueError を指定しています

r - 合成データの作成 - データセットのバランスを取る

Reference

python - SMOTE は、全カテゴリデータセットの配列サイズ / ValueError を指定しています