r - 個人ごとにパネルデータをサンプリング/パーティション化する方法(できればキャレットライブラリを使用)?

Question

パネルデータを分割し、データのパネルの性質を維持したいと思います。

      library(caret)
      library(mlbench)

      #example panel data where id is the persons identifier over years
      data <- read.table("http://people.stern.nyu.edu/wgreene/Econometrics/healthcare.csv",
                    header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE)

      ## Here for instance the dependent variable is working
      inTrain <- createDataPartition(y = data$WORKING, p = .75,list = FALSE)

      # subset into training
      training <- data[ inTrain,]
      # subset into testing
      testing <- data[-inTrain,]
      # Here we see some intersections of identifiers 
      str(training$id[10:20])
      str(testing$id)

ただし、データを分割またはサンプリングするときに、同じ人 (id) が 2 つのデータセットに分割されることを回避したいと思います。データからランダムにサンプリング/分割し、観察ではなく対応するパーティションに個人を割り当てる方法です。 ?

私はサンプリングしようとしました：

    mysample <- data[sample(unique(data$id), 1000,replace=FALSE),]

ただし、それはデータのパネルの性質を破壊します...

score 5 · Accepted Answer

を使用したサンプリングアプローチには小さなバグがあると思います。変数を行番号のようにsample()使用しています。id代わりに、関数は ID に属するすべての行をフェッチする必要があります。

nID <- length(unique(data$id))
p = 0.75
set.seed(123)
inTrainID <- sample(unique(data$id), round(nID * p), replace=FALSE)
training <- data[data$id %in% inTrainID, ] 
testing <- data[!data$id %in% inTrainID, ] 

head(training[, 1:5], 10)
#    id FEMALE YEAR AGE   HANDDUM
# 1   1      0 1984  54 0.0000000
# 2   1      0 1985  55 0.0000000
# 3   1      0 1986  56 0.0000000
# 8   3      1 1984  58 0.1687193
# 9   3      1 1986  60 1.0000000
# 10  3      1 1987  61 0.0000000
# 11  3      1 1988  62 1.0000000
# 12  4      1 1985  29 0.0000000
# 13  5      0 1987  27 1.0000000
# 14  5      0 1988  28 0.0000000


dim(data)
# [1] 27326    41
dim(training)
# [1] 20566    41
dim(testing)
# [1] 6760   41
20566/27326
### 75.26% were selected for training

createDataPartitionWORKINGのクラスバランスは全セットで均等になるので、クラスバランスをチェックしてみましょう。

table(data$WORKING) / nrow(data)
#         0         1 
# 0.3229525 0.6770475 
#
table(training$WORKING) / nrow(training)
#         0         1 
# 0.3226685 0.6773315 
#
table(testing$WORKING) / nrow(testing)
#         0         1 
# 0.3238166 0.6761834 
### virtually equal

score 1 · Accepted Answer

これを見ている人のために、キャレットの groupKFold 関数を指摘すると思いました。これは、このクラスのデータとの相互検証に便利です。ドキュメントから:「グループに基づいてデータを分割するには、groupKFold を使用できます。

set.seed(3527)
subjects <- sample(1:20, size = 80, replace = TRUE)
folds <- groupKFold(subjects, k = 15)

フォールドの結果は、trainControl 関数のインデックス引数への入力として使用できます。」

r - 個人ごとにパネルデータをサンプリング/パーティション化する方法(できればキャレットライブラリを使用)?

2 に答える 2

Related

Reference