0

通勤に関する私の 4 波縦断研究では、通勤時間が 1 分未満で 180 分を超える参加者を除外したいと考えています。私が現在使用しているコードは、最初は問題なく動作しているように見えますが、元の 1500 から約 200 人の参加者しか除外していませんでしたが、n はサイズの半分にすぎず、NA は 2 倍です。何が起こった?

各行を選択して除外することはしません。これは 200 ケースには多すぎる作業です。私はすでに filter() を試しましたが、これはうまくいきませんでした。

describe(selected.data$T2_cvar1) # mean 65.58   SD 127.84   NAs 518 n 1004 
##    vars    n  mean     sd median trimmed   mad min max range skew kurtosis
## X1    1 1004 65.58 127.84     25   33.89 22.24   0 999   999 3.97     17.2
##      se
## X1 4.03

selected.data$T2_cvar1_select <- ifelse(is.na(selected.data$T2_cvar1) == TRUE, selected.data$T2_cvar1, ifelse(selected.data$T2_cvar1 > 0 & selected.data$T2_cvar1 < 181, selected.data$T2_cvar1, -999))

selected.data<- selected.data[selected.data$T2_cvar1_select != -999, ]
# 118 partcipants excluded, 1406 remain 
#(got this information with dim command)

describe(selected.data$T2_cvar1) NAs 848

##    vars   n  mean    sd median trimmed   mad min max range skew kurtosis
## X1    1 476 33.66 28.94     25   28.59 14.83   1 180   179 2.04     4.83
##      se
## X1 1.33

他の 3 つの方法 (T3、T4、T5) についてもこれを繰り返します。

私のNAはなぜ成長したのですか?また、データの半分を公開せずにこれらの人々を除外するにはどうすればよいでしょうか?

4

0 に答える 0