自己宣伝アラート。便利な層化サンプリングを可能にする関数を作成し、サンプリング前にグループ化変数からレベルをサブセット化するオプションを含めました。
この関数は呼び出さstratified
れ、次のように使用できます。
set.seed(1)
# Proportional sample
stratified(mydf, group="gender", size=.2, select=list(gender = "F"))
# gender age
# 4 F 29
# Fixed-size sampling
stratified(mydf, group="gender", size=2, select=list(gender = "F"))
# gender age
# 4 F 29
# 5 F 31
複数のグループを指定できます(たとえば、データフレームに「state」変数が含まれていて、「state」と「gender」でグループ化する場合は、指定しますgroup = c("state", "gender")
)。複数の「select」引数を指定することもできます(たとえば、カリフォルニアとテキサスの女性の回答者のみが必要で、「state」変数が2文字の州の略語を使用している場合は)を指定できますselect = list(gender = "F", state = c("CA", "TX"))
。
関数自体はここinstall_github
にあります。または、次のように「devtools」パッケージから使用して、パッケージをダウンロードしてインストールすることもできます(ヘルプページと例に簡単にアクセスできます) 。
# install.packages("devtools")
library(devtools)
install_github("mrdwabmisc", "mrdwab")