11

約300万行のデータセットと次の構造があります。

PatientID| Year | PrimaryConditionGroup
---------------------------------------
1        | Y1   | TRAUMA
1        | Y1   | PREGNANCY
2        | Y2   | SEIZURE
3        | Y1   | TRAUMA

Rはかなり新しいので、データを以下に概説する構造に再形成する正しい方法を見つけるのに苦労しています。

PatientID| Year | TRAUMA | PREGNANCY | SEIZURE
----------------------------------------------
1        | Y1   | 1      | 1         | 0
2        | Y2   | 0      | 0         | 1
3        | Y1   | 1      | 0         | 1

私の質問は次のとおりです。PrimaryConditionGroupの値がPatientIDとYear(発生数を数える)でグループ化された列になるdata.frameを作成するための最も速く/最もエレガントな方法は何ですか?

4

2 に答える 2

12

これを行うにはおそらくもっと簡潔な方法がありますが、スピードを上げるには、data.tableベースのソリューションに勝るものはありません。

df <- read.table(text="PatientID Year  PrimaryConditionGroup
1         Y1    TRAUMA
1         Y1    PREGNANCY
2         Y2    SEIZURE
3         Y1    TRAUMA", header=T)

library(data.table)
dt <- data.table(df, key=c("PatientID", "Year"))

dt[ , list(TRAUMA =    sum(PrimaryConditionGroup=="TRAUMA"),
           PREGNANCY = sum(PrimaryConditionGroup=="PREGNANCY"),
           SEIZURE =   sum(PrimaryConditionGroup=="SEIZURE")),
   by = list(PatientID, Year)]

#      PatientID Year TRAUMA PREGNANCY SEIZURE
# [1,]         1   Y1      1         1       0
# [2,]         2   Y2      0         0       1
# [3,]         3   Y1      1         0       0

編集: aggregate()より慣用的であるかもしれないし、そうでないかもしれない「ベースR」ソリューションを提供します。(唯一の複雑な点は、aggregateがdata.frameではなく行列を返すことです。下の2行目でそれが修正されます。)

out <- aggregate(PrimaryConditionGroup ~ PatientID + Year, data=df, FUN=table)
out <- cbind(out[1:2], data.frame(out[3][[1]]))

2番目の編集reshape最後に、パッケージを使用した簡潔なソリューションにより、同じ場所にたどり着きます。

library(reshape)
mdf <- melt(df, id=c("PatientID", "Year"))
cast(PatientID + Year ~ value, data=j, fun.aggregate=length)
于 2011-11-15T20:06:03.390 に答える
1

バージョンには、Cで実装された高速meltdcastdata.table固有のメソッドがあります>=1.9.0。これは、300万行のデータに関する@Joshの投稿からの他の優れた回答との比較です(かなり時間がかかっていたため、base :::aggregateを除く)。

NEWSエントリの詳細については、こちらをご覧ください。

私はあなたが1000人の患者と合計5年を持っていると仮定します。変数patientsを調整し、yearそれに応じて調整することができます。

require(data.table) ## >= 1.9.0
require(reshape2)

set.seed(1L)
patients = 1000L
year = 5L
n = 3e6L
condn = c("TRAUMA", "PREGNANCY", "SEIZURE")

# dummy data
DT <- data.table(PatientID = sample(patients, n, TRUE),
                 Year = sample(year, n, TRUE), 
                 PrimaryConditionGroup = sample(condn, n, TRUE))

DT_dcast <- function(DT) {
    dcast.data.table(DT, PatientID ~ Year, fun.aggregate=length)
}

reshape2_dcast <- function(DT) {
    reshape2:::dcast(DT, PatientID ~ Year, fun.aggregate=length)
}

DT_raw <- function(DT) {
    DT[ , list(TRAUMA = sum(PrimaryConditionGroup=="TRAUMA"),
            PREGNANCY = sum(PrimaryConditionGroup=="PREGNANCY"),
              SEIZURE = sum(PrimaryConditionGroup=="SEIZURE")),
    by = list(PatientID, Year)]
}

# system.time(.) timed 3 times
#         Method Time_rep1 Time_rep2 Time_rep3
#       dcast_DT     0.393     0.399     0.396
#    reshape2_DT     3.784     3.457     3.605
#         DT_raw     0.647     0.680     0.657

dcast.data.tableを使用した通常の集計よりも約1.6倍高速で、。data.tableより8.8倍高速ですreshape2:::dcast

于 2014-03-13T10:39:15.573 に答える