ユニットごとの観測数の違いによって偏りのないランダムなサンプルを抽出したい、バランスの取れていないパネル データを使用しています。たとえば、以下のコードでは、IBM は GOOG の 2 倍、MSFT の 5 倍、選択される可能性が高くなります。各企業/年が選択される確率が等しいかのように、このデータをサンプリングする方法はありますか? おそらくサンプリングパッケージを使用して?
df <- data.frame(COMPANY=c(rep('IBM',50),rep('GOOG',25),rep('MSFT',10)), YEAR=c(1961:2010,1988:2012,1996:2005), PROFIT=rnorm(85))
df
df[sample(nrow(df), 20, replace=FALSE), ]