私は大規模なデータ セットを持っており、データの列の 1 つである都市ごとに異なるロジスティック回帰を適合させたいと考えています。次の 70/30 分割は、City グループを考慮せずに機能します。
indexes <- sample(1:nrow(data), size = 0.7*nrow(data))
train <- data[indexes,]
test <- data[-indexes,]
ただし、これは各都市の 70/30 分割を保証するものではありません。
市 A と市 B があり、市 A には 100 行、市 B には 900 行、合計 1000 行があるとします。上記のコードを使用してデータを分割すると、電車の場合は 700 行、テスト データの場合は 300 行になりますが、電車のデータで都市 A の行が 70 行、都市 B の行が 630 行になるとは限りません。それ、どうやったら出来るの?
トレーニング データを都市ごとに 70/30 に分割したら、都市ごとにロジスティック回帰を実行します (トレーニング データを取得したら、これを行う方法を知っています)。