問題タブ [oversampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python - オーバー サンプリング時間の機密データに使用できる手法はありますか
予知保全を実施しようとしていますが、失敗率は 5% です。これは時間に敏感な情報であり、時間の経過とともに障害が発生します。時間の側面を考慮したオーバーサンプリングの手法はありますか。
ありがとう
python-3.x - 不均衡なデータに sklearn.train_test_split を使用する
非常に不均衡なデータセットがあります。sklearn.train_test_split 関数を使用して、列車のデータセットを抽出しました。今、私は列車データセットをオーバーサンプリングしたいので、type1 の数を数えていました (私のデータセットには 2 つのカテゴリとタイプ (type1 と tupe2) がありますが、ほぼすべての列車データは type1 です。したがって、オーバーサンプリングできません。
以前は、作成したコードでトレーニング テスト データセットを分割していました。そのコードでは、すべての type1 データの 0.8 とすべての type2 データの 0.8 がトレーニング データセットにありました。
このメソッドをtrain_test_split関数またはsklearnの他の分割メソッドで使用するにはどうすればよいですか?
*sklearnまたは独自の方法を使用する必要があります。
python - 大規模データフレームでの 2D ガウス オーバーサンプリング
現在、次の形式のデータフレームがあります。
df の各行について、x 値と y 値 (独立) のガウス分布からm行のオーバーサンプリングを追加することを目指しています。したがって、N = 100 および m = 10 の df は、元の値とオーバーサンプリングされた値を含む df の長さ 1010 になります。
これのために私が持っているコードは機能しますが、大規模なデータセット (N > 100k) では非常に遅くなります。多くの操作 (新しい配列/ dfs の作成、反復子の使用など) がパフォーマンスを妨げていると確信しています。データセット全体でより高い m 値を生成できるように、パフォーマンスを向上させる方法について助けていただければ幸いです。例: 入力データは pandas データフレームからのものですが、多変量正規関数は numpy 配列で動作します。numpy 配列とデータフレーム間でコピーせずに、パンダを介してこれを実装するより自然な方法はありますか? ありがとう!
再現可能な例: