大規模な不均衡なデータセットの N 個のバランスの取れたランダム サブサンプルを作成しようとしています。scikit-learn / pandas で簡単にこれを行う方法はありますか、それとも自分で実装する必要がありますか? これを行うコードへのポインタはありますか?
これらのサブサンプルはランダムである必要があり、分類子の非常に大きなアンサンブルで個別の分類子にそれぞれフィードするため、重複する可能性があります。
Wekaにはspreadsubsampleというツールがありますが、sklearnに同等のものはありますか? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample
(重み付けについては知っていますが、それは私が探しているものではありません。)