基本的に、データセットをトレーニング、テスト、および検証セットに分割したかったのです。したがって、train_test_split 関数を 2 回使用しました。約 1000 万行のデータセットがあります。
最初の分割では、トレーニングとテストのデータセットを 7000 万のトレーニングと 3000 万のテストに分割しました。検証セットを取得するには、検証セットを取得するために、分割されたテスト データまたはトレーニング データを train-test-split の入力パラメーターとして使用するかどうかについて少し混乱しています。アドバイスをください。ティア
X = features
y = target
# dividing X, y into train and test and validation data 70% training dataset with 15% testing and 15% validation set
from sklearn.model_selection import train_test_split
#features and label splitted into 70-30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)
#furthermore test data is splitted into test and validation set 15-15
x_test, x_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5)