問題タブ [oversampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
394 参照

python - ターゲット変数ごとにpysparkオーバーサンプリングクラス

pyspark を使用してデータをオーバーサンプリングする方法があるかどうか知りたかったのです。

10 クラスのターゲット変数を持つデータセットがあります。現在、各クラスを取得し、以下のようにオーバーサンプリングして一致させています

そして最後に、すべてのデータフレームをユニオンオールで結合します

サンプリング値 手動でチェックしています。たとえば、4 番目のクラスに 2000 行があり、2 番目のクラスに 10 行がある場合、上記のコードで提供されているように、手動でチェックし、それに応じて値 16,12 を提供します。

言及されたコードが完全なものではないことを許してください。私が入れた見解を示すためだけに。pyspark に SMOTE のような自動化された方法があるかどうか知りたかったのです。

以下のリンク、 オーバーサンプリングまたは Pyspark の SMOTE を見てきました

私のターゲットクラスは2つだけでなければならないと言っています。条件を削除すると、データ型の問題が発生します

すべてのクラスをチェックし、サンプリング値を提供することは非常に苦痛です

0 投票する
0 に答える
249 参照

python - この場合、どのオーバーまたはアンダーサンプリング手法が有効でしょうか?

すべての機能が公称であるデータがあります。SMOTE-NC を適用したところ、ノミナル フィーチャと連続フィーチャの組み合わせでのみ機能することがわかりました。

SMOTEテクニックの同じ論文にSMOTE-N(公称特徴のみを扱う)と呼ばれるテクニックがありますが、Pythonでそのコードや関数を見つけることができません。アプリケーションや類似のものはありますか?または、カテゴリ機能のみで機能する他のオーバーまたはアンダーサンプリング手法はありますか