これらは、オンラインで答えを見つけることができなかった R の統計プログラミングに関するいくつかの初心者の質問です。 私のデータフレームは、以下のコードで「eitc」とラベル付けされています。
1)データ フレームを読み込んだら、要約統計を見たいと思います。私は関数を使用しました:
eitc <- read.dta(file="/Users/Documents/eitc.dta")
summary(eitc)
sapply(eitc,mean,na.rm=TRUE) #for sample mean, min, max, etc.
特定の条件が満たされたときに、データフレームの要約統計を見つけるにはどうすればよいですか。たとえば、変数「children」が 1 以上の場合に、すべての変数の要約統計を表示したいと考えています。同等の Stata コードは次のとおりです。
summarize if children >= 1
2)同様に、特定の条件が満たされたときに特定のパラメーターを見つけるにはどうすればよいですか? たとえば、「post93」変数がゼロに等しく、「anykids」変数が 1 に等しい場合、変数「work」の平均を見つけたいとします。同等の Stata コードは次のとおりです。
mean work if post93==0 & anykids==1
3)理想的には、上記の要約統計を実行するときに、計算に含まれるオブザベーションの数/基準に適合する数を調べたいと思います。
4)データ フレームを読み取るときに、データ セットに含まれる観測値の数 (および、欠損値または "NA" が含まれる行の数) を確認することもできます。
5)また、次のコードを使用してダミー変数を作成しています。これは正しい方法ですか、それともより効率的なルートがありますか?
post93.dummy <- as.numeric(eitc$year>1993)
eitc=cbind(eitc,post93.dummy)