データフレームを 2 つの部分に分割する必要があります。たとえば、以下のデータフレームが Col1 に基づいてランダムに分割されている場合、両方のファイルに各カテゴリ 1、2、および 3 のサンプルが含まれている必要があります。
Col1 col2
1 a
1 b
2 c
2 d
3 e
これまでのところ、を使用してデータを目的の比率に分割できましたsklearn.cross_validation import train_test_split
。しかし、すべてのカテゴリからサンプルを取得するために分割を行う方法がわかりません。
すべての助けに感謝します。ありがとう。