5

私は現在、機械学習の問題に取り組んでいますが、バランスの取れていない大きなデータセットを処理する必要があります。つまり、6 つのクラス ('1'、'2'...'6') があります。残念ながら、クラス '1' では 150 の例/インスタンス、'2' では 90 のインスタンス、クラス '3' では 20 しかありません。これらのクラスには利用可能なインスタンスがないため、他のすべてのクラスは「トレーニング」できません。

これまでのところ、WEKA (私が使用している機械学習ツールキット) がこの教師付きの「リサンプル」フィルターを提供することがわかりました。このフィルターを 'noReplacement'=false および 'bialToUniformClass'=1.0 で適用すると、インスタンスの数が適切でほぼ等しいデータ セットが生成されます (クラス '1'..'3' およびその他の場合)。空のまま)。

私の質問は次のとおりです。WEKAとこのフィルターは、さまざまなクラスの「新しい」/追加のインスタンスをどのように生成しますか。

ヒントや提案をお寄せいただきありがとうございます。

乾杯ジュリアン

4

3 に答える 3

2

WEKAの監視対象のResampleフィルターを使用すると、インスタンスがクラスに追加されます。これは、インスタンスが数回しかないクラスのインスタンスを結果データセットに複数回追加するだけで実現されます。

したがって、結果のデータセットは、使用できるサンプルが少ないクラスに関して強くバイアスされます。

于 2009-12-09T19:09:15.510 に答える
2

そうではありません。既存のインスタンスをリサンプリングしています。クラス2インスタンスが1つあり、バイアスが1.0のリサンプリングを要求する場合、そのインスタンスのN個のコピーと、すでにデータが存在する他のタイプのインスタンスがN個あると予想できます。

于 2010-02-11T06:41:36.017 に答える