問題タブ [imbalanced-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 不均衡なデータのバランスを取る方法について
Scikit Learn でディシジョン ツリーを読むと、次のことがわかります。
ツリーが優勢なクラスに偏らないように、トレーニングの前にデータセットのバランスをとってください。クラスの均衡化は、各クラスから同数のサンプルをサンプリングするか、できれば各クラスのサンプルの重み (sample_weight) の合計を同じ値に正規化することによって行うことができます。
リンク: http://scikit-learn.org/stable/modules/tree.html
私は混乱しています。
(1)
クラス バランシングは、各クラスから同数のサンプルをサンプリングすることで実行できます。
このような場合、各クラスの各サンプルに適切なサンプル重みを追加する必要があります (またはクラス サンプルを追加します...)。
たとえば、サンプル数のある A と B の 2 つのクラスがあるとします。
A:100 B:10000
それぞれに 10000 個のサンプルを入力して重みを設定できますか:
Aの入力サンプル:10000、Bの入力サンプル:10000
A の重み: 0.01 、B の重み: 1.0
(2)
しかし、それはまだ言った:
できれば、各クラスのサンプルの重みの合計 (sample_weight) を同じ値に正規化します。
私はそれに完全に混乱しました。A の 100 サンプルと B の 10000 サンプルを入力してから、重みを設定する必要があるということですか。
Aの入力サンプル:100、Bの入力サンプル:10000
A の重み: 1.0 、B の重み: 1.0
しかし、不均衡なデータのバランスをとるために何もしなかったようです.
どちらの方法が優れており、Scikit Learn の 2 番目の方法の意味は何ですか? 誰かがそれを明確にするのを手伝ってくれますか?
machine-learning - クロスバリデーションにおけるクラスのバランス
H2O で GBM モデルを構築したいと考えています。私のデータセットは不均衡なので、balance_classes パラメーターを使用しています。グリッド検索 (パラメーター調整) には、5 分割の交差検証を使用したいと思います。その場合、H2Oがクラスのバランスをどのように処理するのか疑問に思っています。トレーニング フォールドのみが再調整されますか? テストフォールドが再調整されていないことを確認したい。
python - よりバランスの取れたサンプルデータを取得する方法 Python
正規化されたパーセンテージ情報を持つデータフレームがあります。例えば。
wordCount 数値 パーセント
2.0 1282 0.267345
1.0 888 0.185213
3.0 1124 0.170791
4.0 1250 0.152877
5.0 554 0.084864
6.0 333 0.058904
7.0 160 0.024290
8.0 111 0.016851
すべてのパーセンテージは 1 まで合計できます。データフレームは 6000 エントリです。そこから 2000 のサンプルを取得したいと考えています。2000 年のサンプルは、可能な限りバランスがとれている必要があります。
これには、少量のパーセンテージ データを最大限に含め、大量のパーセンテージ データを最小限に抑える必要があります。
やり方がわかりません。
例えば。2000 には wordCount 8.0 からのすべてのデータがあり、2.0 からの最小データがあります。
ガンマ分布をプロットすると、線はできるだけ平らになります。