r - R: より少ない行の欠損値に基づいて複数の行を削除します

Question

複数の被験者からのデータを含むRデータフレームがあり、それぞれが数回テストされています。セットの統計を実行するために、サブジェクト (「id」) の係数と各観測の行 (係数「セッション」によって指定) があります。いえ

print(allData)
id     session     measure
1      1           7.6
2      1           4.5
3      1           5.5
1      2           7.1
2      2           NA
3      2           4.9

上記の例で、「メジャー」列の id==2 の行の 1 つに NA が含まれている場合、id==2 のすべての行を削除する簡単な方法はありますか?

より一般的には、実際には各被験者に多くのメジャー (列) と 4 つのセッション (行) があるため、(少なくとも) 与えられたレベルの「id」要素を持つすべての行を削除するエレガントな方法はありますか?この「id」レベルの行の 1 つは列に NA を含んでいますか?

現在のソリューションよりもエレガントにこの問題を解決できる組み込み関数が存在する可能性があるという直感があります。

# Which columns to check for NA's in
probeColumns = c('measure1','measure4') # Etc...

# A vector which contains all levels of "id" that are present in rows with NA's in the probeColumns
idsWithNAs = allData[complete.cases(allData[probeColumns])==FALSE,"id"]

# All rows that isn't in idsWithNAs
cleanedData = allData[!allData$id %in% idsWithNAs,]

ありがとう、ジョナス

score 3 · Accepted Answer

パッケージのddply関数を使用して、 1) でデータをサブセット化し、2) 選択した列にサブ data.frame が含まれている場合に返す関数を適用するか、そうでない場合は data.frame 自体を返す関数を適用し、3) 連結することができます。すべてを data.frame に戻します。plyridNULLNA

allData <- data.frame(id       = rep(1:4, 3),
                      session  = rep(1:3, each = 4),
                      measure1 = sample(c(NA, 1:11)),
                      measure2 = sample(c(NA, 1:11)),
                      measure3 = sample(c(NA, 1:11)),
                      measure4 = sample(c(NA, 1:11)))
allData                      
#    id session measure1 measure2 measure3 measure4
# 1   1       1        3        7       10        6
# 2   2       1        4        4        9        9
# 3   3       1        6        6        7       10
# 4   4       1        1        5        2        3
# 5   1       2       NA       NA        5       11
# 6   2       2        7       10        6        5
# 7   3       2        9        8        4        2
# 8   4       2        2        9        1        7
# 9   1       3        5        1        3        8
# 10  2       3        8        3        8        1
# 11  3       3       11       11       11        4
# 12  4       3       10        2       NA       NA

# Which columns to check for NA's in
probeColumns = c('measure1','measure4')

library(plyr)
ddply(allData, "id",
      function(df)if(any(is.na(df[, probeColumns]))) NULL else df)
#   id session measure1 measure2 measure3 measure4
# 1  2       1        4        4        9        9
# 2  2       2        7       10        6        5
# 3  2       3        8        3        8        1
# 4  3       1        6        6        7       10
# 5  3       2        9        8        4        2
# 6  3       3       11       11       11        4

score 0 · Accepted Answer

あなたの例を使用すると、その最後の2つのコマンドをそのような文字列に変換できます。同じ結果が得られるはずで、見た目は単純です。

cleanedData <- allData[complete.cases(allData[,probeColumns]),]

これは、基本パッケージのみを使用する正しいバージョンです。ただ楽しみのために。:)しかし、それはコンパクトでもシンプルでもありません。flodelの答えはきちんとしています。あなたの最初の解決策でさえよりコンパクトで、私はより速いと思います。

cleanedData <- do.call(rbind, sapply(unique(allData[,"id"]), function(x) {if(all(!is.na(allData[allData$id==x, probeColumn]))) allData[allData$id==x,]}))

r - R: より少ない行の欠損値に基づいて複数の行を削除します

2 に答える 2

Related

Reference