これを高速化するには、特にdf$V2
に基づいて分割するだけでよい場合は、データ フレーム全体ではなくdf$V1
、呼び出しでそのベクトルのみを使用します。例えば:split
df
## Dummy data
df <- read.table(text = "V1 V2
A1BG A1BG
A1BG CRISP3
A1CF A1CF
A1CF APOBEC1
A1CF CUGBP2
A1CF KHSRP", header = TRUE)
## make it big!
df <- with(df, cbind.data.frame(V1 = rep(V1, length.out = 1e5),
V2 = rep(V2, length.out = 1e5)))
# time it
system.time(sp1 <- split(df, df$V1))
system.time(sp2 <- split(df$V2, df$V1))
> system.time(sp1 <- split(df, df$V1))
user system elapsed
0.024 0.000 0.016
> system.time(sp2 <- split(df$V2, df$V1))
user system elapsed
0.008 0.000 0.005
ただし、これはいくつかのレベルの例です。非常に多くのレベルがあると、データ フレーム全体を分割する非効率性が計算時間に大きく影響し始めます。たとえば、約 10000 レベルの係数の場合です。
df2 <- data.frame(V1 = factor(sample(10000, 1e5, replace = TRUE)),
V2 = rnorm(1e5))
system.time(sp3 <- split(df2, df2$V1))
system.time(sp4 <- split(df2$V2, df2$V1))
> system.time(sp3 <- split(df2, df2$V1))
user system elapsed
5.332 0.000 4.216
>
> system.time(sp4 <- split(df2$V2, df2$V1))
user system elapsed
0.008 0.000 0.005
この理由は、このsplit(df, df$V1)
場合、( )によってグループに分割されたベクトル自体split.data.frame
に対してメソッドが呼び出され、各コンポーネントに関数 ( ) を適用するためです。したがって、レベルの数が大きくなるにつれて、その無名関数への関数呼び出しの数が増え、計算時間が長くなります。lapply()
1:nrow(df)
f
df$V2
function(ind) x[ind, , drop = FALSE])
split(df$V2, df$v1)
メソッドが使用される場合split.default
、 factor で呼び出された場合、本質f
的には の高速な C 実装を呼び出すだけで済みますsplit
。そのため、無名関数を呼び出すオーバーヘッドも、 への繰り返し呼び出しも発生しません[
。