r - Rの行ごとの縦断データの操作の難しさ

Question

縦断データの操作に少し問題があります。データセットは、行ごとに1つの一意のIDと、それに続く一連の訪問日で構成されています。各訪問で、3つの二分変数の値があります。

data1 <- structure(list(V1date = structure(c(2L, 1L, 2L, 3L, 4L), .Label = c("1/22/12", "4/5/12", "8/18/12", "9/6/12"), class = "factor"), 
V1a = structure(c(1L, 1L, 2L, 1L, 2L), .Label = c("No", "Yes"), class = "factor"), 
V1b = structure(c(2L, 1L, 1L, 1L, 1L), .Label = c("No", "Yes"), class = "factor"), 
V1c = structure(c(1L, 2L, 1L, 1L, 1L), .Label = c("No", "Yes"), class = "factor"), 
V2date = structure(c(1L, 2L, 4L, 3L, NA), .Label = c("6/18/12", "7/5/12", "9/22/12", "9/4/12"), class = "factor"), 
V2a = structure(c(1L, 1L, 1L, 1L, NA), .Label = "Yes", class = "factor"), 
V2b = structure(c(1L, 1L, 1L, 1L, NA), .Label = "No", class = "factor"), 
V2c = structure(c(1L, 1L, 1L, 1L, NA), .Label = "Yes", class = "factor"), 
V3date = structure(c(NA, NA, 1L, NA, 2L), .Label = c("11/1/12", "12/4/12"), class = "factor"), 
V3a = structure(c(NA, NA, 1L, NA, 1L), .Label = "Yes", class = "factor"), 
V3b = structure(c(NA, NA, 1L, NA, 1L), .Label = "No", class = "factor"), 
V3c = structure(c(NA, NA, 2L, NA, 1L), .Label = c("No", "Yes"), class = "factor")),
 .Names = c("V1date", "V1a", "V1b", "V1c", "V2date", "V2a", "V2b", "V2c", "V3date", "V3a", "V3b", "V3c"), 
class = "data.frame", row.names = c("001",  "002", "003", "004", "005"))

data1    
     V1date V1a V1b V1c  V2date  V2a  V2b  V2c  V3date  V3a  V3b  V3c
001  4/5/12  No Yes  No 6/18/12  Yes   No  Yes    <NA> <NA> <NA> <NA>
002 1/22/12  No  No Yes  7/5/12  Yes   No  Yes    <NA> <NA> <NA> <NA>
003  4/5/12 Yes  No  No  9/4/12  Yes   No  Yes 11/1/12  Yes   No  Yes
004 8/18/12  No  No  No 9/22/12  Yes   No  Yes    <NA> <NA> <NA> <NA>
005  9/6/12 Yes  No  No    <NA> <NA> <NA> <NA> 12/4/12  Yes   No   No

3つの変数の8つの異なる可能な組み合わせのうち、4つは「異常」であり、残りの4つは「正常」です。誰もが異常な状態から始まり、その後の訪問で異常な状態が続くか、後の訪問で正常なパターンに解決します（異常な状態に戻ることは無視します-正常になったら正常です）

データフレームの右側に4つの新しい列が追加され、1）最後に完了した訪問の日付（介在する「NA」に関係なく、2）IDが最終的に解決されたか、異常のままであったか、3）解決されたかどうかを示す必要があります。、解決パターンとは何か、4）解決日とは何か。NAは常に4つのグループ（つまり、訪問日なし、3つの変数の値なし）で提供され、無視されます。

したがって、たとえば、パターン「yes-yes-no」、「yes-no-yes」、「no-yes-yes」、および「yes-yes-yes」が正常であり、残りのパターンがすべて正常である場合、結果は次のように4つの追加列になります。

data2 <- structure(list(
LastVisDate = structure(c(3L, 2L, 3L, 3L, 2L), .Label = c("6/18/12", "12/4/12", "11/1/12", "9/22/12"), class = "factor"), 
Resolved = structure(c(2L, 2L, 2L, 2L, 1L), .Label = c("No", "Yes"), class = "factor"), 
Pattern = structure(c(1L, 1L, 1L, 1L, NA), .Label = "yny", class = "factor"), 
Resdate = structure(c(1L, 2L, 3L, 4L, NA), .Label = c("6/18/12", "7/5/12", "9/4/12", "9/22/12"), class = "factor")),
.Names = c("LastVisDate", "Resolved", "Pattern", "Resdate"),   
class = "data.frame", row.names = c("001",  "002", "003", "004", "005"))

data2
    LastVisDate Resolved Pattern Resdate
001     11/1/12      Yes     yny 6/18/12
002     12/4/12      Yes     yny  7/5/12
003     11/1/12      Yes     yny  9/4/12
004     11/1/12      Yes     yny 9/22/12
005     12/4/12       No    <NA>    <NA>

私はこのプロジェクトに多くの時間を費やしましたが、停止ルールが満たされるまで、Rにデータセットを右方向に進むように依頼する方法を理解できませんでした。提案は大歓迎です。

score 1 · Accepted Answer

これは、データの構造に依存します。特に、列2、6、および10から始まる3つの値があり、これらは誰かが「正常」であるかどうかを判別する関数に渡されます。

これは、誰かが「正常」であるかどうかを判断する関数です。これを書く他の方法があります。

is.normal <- function(x) {
  any(c(
    all(x == c("Yes", "Yes", "No")),
    all(x == c("Yes", "No", "Yes")),
    all(x == c("No", "Yes", "Yes")),
    all(x == c("Yes", "Yes", "Yes"))
  ))
}

これを使用して、適切な列のセットに適用します。これは、質問で指定した正確なレイアウトによって異なります。vapplyに渡される列番号に注意してください。ここでの結果は論理行列であり、各ステップで誰かが「正常」であるかどうかを示します。

ok <- vapply(c(2,6,10),
         function(x) apply(data1[x:(x+2)], 1, is.normal ),
         logical(length(data1[,1])))

> ok
     [,1] [,2]  [,3]
001 FALSE TRUE    NA
002 FALSE TRUE    NA
003 FALSE TRUE  TRUE
004 FALSE TRUE    NA
005 FALSE   NA FALSE

ここで、もしあれば、各人が「正常」になるのを初めて見つけます。調べてみると、異常なままの最後を除くすべての人にとって、これは2です。は、正常性が達成されない場合の戻り値ifを防ぐために使用されます。Infmin

date.ind <- apply(ok, 1,
              function(x) {
                y <- which(x)
                if (length(y)) min(y) else NA
              }
)

> date.ind
001 002 003 004 005 
  2   2   2   2  NA

次に、上記の「グループ」と、正常性が達成されている実際の日付列に到達する方法を知って、日付を抽出できます。

dates <- vapply(seq_along(date.ind), 
                function(x) if (is.na(date.ind[x])) as.character(NA) else as.character(data1[x,date.ind[x]*4-3]),
                character(1)
                )
> dates
[1] "6/18/12" "7/5/12"  "9/4/12"  "9/22/12" NA

列インデックスは上記のように計算できるため、他の情報の抽出も同様です。

r - Rの行ごとの縦断データの操作の難しさ

1 に答える 1

Related

Reference