問題タブ [oversampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ターゲット変数ごとにpysparkオーバーサンプリングクラス
pyspark を使用してデータをオーバーサンプリングする方法があるかどうか知りたかったのです。
10 クラスのターゲット変数を持つデータセットがあります。現在、各クラスを取得し、以下のようにオーバーサンプリングして一致させています
そして最後に、すべてのデータフレームをユニオンオールで結合します
サンプリング値 手動でチェックしています。たとえば、4 番目のクラスに 2000 行があり、2 番目のクラスに 10 行がある場合、上記のコードで提供されているように、手動でチェックし、それに応じて値 16,12 を提供します。
言及されたコードが完全なものではないことを許してください。私が入れた見解を示すためだけに。pyspark に SMOTE のような自動化された方法があるかどうか知りたかったのです。
以下のリンク、 オーバーサンプリングまたは Pyspark の SMOTE を見てきました
私のターゲットクラスは2つだけでなければならないと言っています。条件を削除すると、データ型の問題が発生します
すべてのクラスをチェックし、サンプリング値を提供することは非常に苦痛です
python - この場合、どのオーバーまたはアンダーサンプリング手法が有効でしょうか?
すべての機能が公称であるデータがあります。SMOTE-NC を適用したところ、ノミナル フィーチャと連続フィーチャの組み合わせでのみ機能することがわかりました。
SMOTEテクニックの同じ論文にSMOTE-N(公称特徴のみを扱う)と呼ばれるテクニックがありますが、Pythonでそのコードや関数を見つけることができません。アプリケーションや類似のものはありますか?または、カテゴリ機能のみで機能する他のオーバーまたはアンダーサンプリング手法はありますか