問題タブ [oversampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
25 参照

python - Python - オーバー サンプリング時間の機密データに使用できる手法はありますか

予知保全を実施しようとしていますが、失敗率は 5% です。これは時間に敏感な情報であり、時間の経過とともに障害が発生します。時間の側面を考慮したオーバーサンプリングの手法はありますか。

ありがとう

0 投票する
3 に答える
6690 参照

python-3.x - 不均衡なデータに sklearn.train_test_split を使用する

非常に不均衡なデータセットがあります。sklearn.train_test_split 関数を使用して、列車のデータセットを抽出しました。今、私は列車データセットをオーバーサンプリングしたいので、type1 の数を数えていました (私のデータセットには 2 つのカテゴリとタイプ (type1 と tupe2) がありますが、ほぼすべての列車データは type1 です。したがって、オーバーサンプリングできません。

以前は、作成したコードでトレーニング テスト データセットを分割していました。そのコードでは、すべての type1 データの 0.8 とすべての type2 データの 0.8 がトレーニング データセットにありました。

このメソッドをtrain_test_split関数またはsklearnの他の分割メソッドで使用するにはどうすればよいですか?

*sklearnまたは独自の方法を使用する必要があります。

0 投票する
1 に答える
71 参照

python - 大規模データフレームでの 2D ガウス オーバーサンプリング

現在、次の形式のデータフレームがあります。

df の各行について、x 値と y 値 (独立) のガウス分布からm行のオーバーサンプリングを追加することを目指しています。したがって、N = 100 および m = 10 の df は、元の値とオーバーサンプリングされた値を含む df の長さ 1010 になります。

これのために私が持っているコードは機能しますが、大規模なデータセット (N > 100k) では非常に遅くなります。多くの操作 (新しい配列/ dfs の作成、反復子の使用など) がパフォーマンスを妨げていると確信しています。データセット全体でより高い m 値を生成できるように、パフォーマンスを向上させる方法について助けていただければ幸いです。例: 入力データは pandas データフレームからのものですが、多変量正規関数は numpy 配列で動作します。numpy 配列とデータフレーム間でコピーせずに、パンダを介してこれを実装するより自然な方法はありますか? ありがとう!

再現可能な例: