問題タブ [oversampling]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

140 問題

0 投票する

0 に答える

25 参照

python - Python - オーバーサンプリング時間の機密データに使用できる手法はありますか

予知保全を実施しようとしていますが、失敗率は 5% です。これは時間に敏感な情報であり、時間の経過とともに障害が発生します。時間の側面を考慮したオーバーサンプリングの手法はありますか。

ありがとう

python oversampling

2020-03-25T13:52:30.407

0 投票する

3 に答える

6690 参照

python-3.x - 不均衡なデータに sklearn.train_test_split を使用する

非常に不均衡なデータセットがあります。sklearn.train_test_split 関数を使用して、列車のデータセットを抽出しました。今、私は列車データセットをオーバーサンプリングしたいので、type1 の数を数えていました (私のデータセットには 2 つのカテゴリとタイプ (type1 と tupe2) がありますが、ほぼすべての列車データは type1 です。したがって、オーバーサンプリングできません。

以前は、作成したコードでトレーニングテストデータセットを分割していました。そのコードでは、すべての type1 データの 0.8 とすべての type2 データの 0.8 がトレーニングデータセットにありました。

このメソッドをtrain_test_split関数またはsklearnの他の分割メソッドで使用するにはどうすればよいですか?

*sklearnまたは独自の方法を使用する必要があります。

2020-05-19T07:16:19.007

0 投票する

1 に答える

71 参照

python - 大規模データフレームでの 2D ガウスオーバーサンプリング

現在、次の形式のデータフレームがあります。

df の各行について、x 値と y 値 (独立) のガウス分布からm行のオーバーサンプリングを追加することを目指しています。したがって、N = 100 および m = 10 の df は、元の値とオーバーサンプリングされた値を含む df の長さ 1010 になります。

これのために私が持っているコードは機能しますが、大規模なデータセット (N > 100k) では非常に遅くなります。多くの操作 (新しい配列/ dfs の作成、反復子の使用など) がパフォーマンスを妨げていると確信しています。データセット全体でより高い m 値を生成できるように、パフォーマンスを向上させる方法について助けていただければ幸いです。例: 入力データは pandas データフレームからのものですが、多変量正規関数は numpy 配列で動作します。numpy 配列とデータフレーム間でコピーせずに、パンダを介してこれを実装するより自然な方法はありますか? ありがとう！

再現可能な例:

python pandas dataframe oversampling

2020-06-25T09:29:15.867

1 2 3 4 5 6 7 8 9 10

問題タブ [oversampling]

python - Python - オーバー サンプリング時間の機密データに使用できる手法はありますか

python-3.x - 不均衡なデータに sklearn.train_test_split を使用する

python - 大規模データフレームでの 2D ガウス オーバーサンプリング

Reference

python - Python - オーバーサンプリング時間の機密データに使用できる手法はありますか

python - 大規模データフレームでの 2D ガウスオーバーサンプリング