1

データフレームを 2 つの部分に分割する必要があります。たとえば、以下のデータフレームが Col1 に基づいてランダムに分割されている場合、両方のファイルに各カテゴリ 1、2、および 3 のサンプルが含まれている必要があります。

Col1 col2 
1      a
1      b
2      c
2      d
3      e

これまでのところ、を使用してデータを目的の比率に分割できましたsklearn.cross_validation import train_test_splitしかし、すべてのカテゴリからサンプルを取得するために分割を行う方法がわかりません。 すべての助けに感謝します。ありがとう。

4

1 に答える 1

1

StratifiedKFoldオブジェクトを見てください。

http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.StratifiedKFold.html

ドキュメントに使用方法を示す短い例があります

于 2016-06-07T14:00:12.327 に答える