私は現在、機械学習の問題に取り組んでいますが、バランスの取れていない大きなデータセットを処理する必要があります。つまり、6 つのクラス ('1'、'2'...'6') があります。残念ながら、クラス '1' では 150 の例/インスタンス、'2' では 90 のインスタンス、クラス '3' では 20 しかありません。これらのクラスには利用可能なインスタンスがないため、他のすべてのクラスは「トレーニング」できません。
これまでのところ、WEKA (私が使用している機械学習ツールキット) がこの教師付きの「リサンプル」フィルターを提供することがわかりました。このフィルターを 'noReplacement'=false および 'bialToUniformClass'=1.0 で適用すると、インスタンスの数が適切でほぼ等しいデータ セットが生成されます (クラス '1'..'3' およびその他の場合)。空のまま)。
私の質問は次のとおりです。WEKAとこのフィルターは、さまざまなクラスの「新しい」/追加のインスタンスをどのように生成しますか。
ヒントや提案をお寄せいただきありがとうございます。
乾杯ジュリアン