問題タブ [imbalanced-data]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

266 問題

0 投票する

1 に答える

1230 参照

machine-learning - 不均衡なデータのバランスを取る方法について

Scikit Learn でディシジョンツリーを読むと、次のことがわかります。

ツリーが優勢なクラスに偏らないように、トレーニングの前にデータセットのバランスをとってください。クラスの均衡化は、各クラスから同数のサンプルをサンプリングするか、できれば各クラスのサンプルの重み (sample_weight) の合計を同じ値に正規化することによって行うことができます。

リンク: http://scikit-learn.org/stable/modules/tree.html

私は混乱しています。

(1)

クラスバランシングは、各クラスから同数のサンプルをサンプリングすることで実行できます。

このような場合、各クラスの各サンプルに適切なサンプル重みを追加する必要があります (またはクラスサンプルを追加します...)。

たとえば、サンプル数のある A と B の 2 つのクラスがあるとします。

A:100 B:10000

それぞれに 10000 個のサンプルを入力して重みを設定できますか:

Aの入力サンプル:10000、Bの入力サンプル:10000

A の重み: 0.01 、B の重み: 1.0

(2)

しかし、それはまだ言った：

できれば、各クラスのサンプルの重みの合計 (sample_weight) を同じ値に正規化します。

私はそれに完全に混乱しました。A の 100 サンプルと B の 10000 サンプルを入力してから、重みを設定する必要があるということですか。

Aの入力サンプル:100、Bの入力サンプル:10000

A の重み: 1.0 、B の重み: 1.0

しかし、不均衡なデータのバランスをとるために何もしなかったようです.

どちらの方法が優れており、Scikit Learn の 2 番目の方法の意味は何ですか? 誰かがそれを明確にするのを手伝ってくれますか?

2016-08-24T08:03:11.490

0 投票する

2 に答える

2296 参照

machine-learning - クロスバリデーションにおけるクラスのバランス

H2O で GBM モデルを構築したいと考えています。私のデータセットは不均衡なので、balance_classes パラメーターを使用しています。グリッド検索 (パラメーター調整) には、5 分割の交差検証を使用したいと思います。その場合、H2Oがクラスのバランスをどのように処理するのか疑問に思っています。トレーニングフォールドのみが再調整されますか? テストフォールドが再調整されていないことを確認したい。

machine-learning cross-validation h2o gbm imbalanced-data

2018-02-15T10:32:54.550

0 投票する

1 に答える

150 参照

python - よりバランスの取れたサンプルデータを取得する方法 Python

正規化されたパーセンテージ情報を持つデータフレームがあります。例えば。

wordCount 数値パーセント

2.0 1282 0.267345

1.0 888 0.185213

3.0 1124 0.170791

4.0 1250 0.152877

5.0 554 0.084864

6.0 333 0.058904

7.0 160 0.024290

8.0 111 0.016851

すべてのパーセンテージは 1 まで合計できます。データフレームは 6000 エントリです。そこから 2000 のサンプルを取得したいと考えています。2000 年のサンプルは、可能な限りバランスがとれている必要があります。

これには、少量のパーセンテージデータを最大限に含め、大量のパーセンテージデータを最小限に抑える必要があります。

やり方がわかりません。

例えば。2000 には wordCount 8.0 からのすべてのデータがあり、2.0 からの最小データがあります。

ガンマ分布をプロットすると、線はできるだけ平らになります。

python gamma-distribution gamma imbalanced-data

2019-08-19T03:32:11.063

1 2 3 4 5 6 7 8 9 10

問題タブ [imbalanced-data]

machine-learning - 不均衡なデータのバランスを取る方法について

machine-learning - クロスバリデーションにおけるクラスのバランス

python - よりバランスの取れたサンプルデータを取得する方法 Python

Reference