python - Python 3.6でtrain-test-split関数を2回使用するときに入力パラメータとして渡す必要があるもの

翻译自：https://stackoverflow.com/questions/56099495 2019-05-12T13:00:53.590

688 次

基本的に、データセットをトレーニング、テスト、および検証セットに分割したかったのです。したがって、train_test_split 関数を 2 回使用しました。約 1000 万行のデータセットがあります。

最初の分割では、トレーニングとテストのデータセットを 7000 万のトレーニングと 3000 万のテストに分割しました。検証セットを取得するには、検証セットを取得するために、分割されたテストデータまたはトレーニングデータを train-test-split の入力パラメーターとして使用するかどうかについて少し混乱しています。アドバイスをください。ティア

X = features 
y = target 

# dividing X, y into train and test and validation data 70% training dataset with 15% testing and 15% validation set 

from sklearn.model_selection import train_test_split 

#features and label splitted into 70-30 
X_train, X_test, y_train, y_test = train_test_split(X, y,  test_size = 0.3, random_state = 0) 

#furthermore test data is splitted into test and validation set 15-15
x_test, x_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5)

python - Python 3.6でtrain-test-split関数を2回使用するときに入力パラメータとして渡す必要があるもの

1 に答える 1

Related