r - 集計値を元のデータフレームに結合する

Question

私が何度も使用している設計パターンの 1 つは、データフレームで「グループ化」または「分割、適用、結合 (SAC)」を実行し、集計されたデータを元のデータに結合することです。これは、たとえば、多数の州と郡を含むデータフレームで、各郡の州平均からの偏差を計算する場合に役立ちます。私の集計計算が単純な平均にすぎないことはめったにありませんが、良い例になります。私はしばしば次の方法でこの問題を解決します。

require(plyr)
set.seed(1)

## set up some data
group1 <- rep(1:3, 4)
group2 <- sample(c("A","B","C"), 12, rep=TRUE) 
values <- rnorm(12)
df <- data.frame(group1, group2, values)

## got some data, so let's aggregate

group1Mean <- ddply( df, "group1", function(x) 
                     data.frame( meanValue = mean(x$values) ) )
df <- merge( df, group1Mean )
df

これにより、次のような優れた集計データが生成されます。

> df
   group1 group2   values meanValue
1       1      A  0.48743 -0.121033
2       1      A -0.04493 -0.121033
3       1      C -0.62124 -0.121033
4       1      C -0.30539 -0.121033
5       2      A  1.51178  0.004804
6       2      B  0.73832  0.004804
7       2      A -0.01619  0.004804
8       2      B -2.21470  0.004804
9       3      B  1.12493  0.758598
10      3      C  0.38984  0.758598
11      3      B  0.57578  0.758598
12      3      A  0.94384  0.758598

これは機能しますが、可読性やパフォーマンスなどを向上させる別の方法はありますか?

score 18 · Accepted Answer

1 行のコードでトリックを実行します。

new <- ddply( df, "group1", transform, numcolwise(mean))
new

group1 group2      values    meanValue
1       1      A  0.48742905 -0.121033381
2       1      A -0.04493361 -0.121033381
3       1      C -0.62124058 -0.121033381
4       1      C -0.30538839 -0.121033381
5       2      A  1.51178117  0.004803931
6       2      B  0.73832471  0.004803931
7       2      A -0.01619026  0.004803931
8       2      B -2.21469989  0.004803931
9       3      B  1.12493092  0.758597929
10      3      C  0.38984324  0.758597929
11      3      B  0.57578135  0.758597929
12      3      A  0.94383621  0.758597929

identical(df, new)
[1] TRUE

score 13 · Accepted Answer

パフォーマンスに関しては、data.tableパッケージを使用してこれと同じ種類の操作を実行できます。このパッケージには集約が組み込まれており、インデックスと C ベースの実装のおかげで非常に高速です。たとえば、dfあなたの例から既に存在する与えられた：

library("data.table")
dt<-as.data.table(df)
setkey(dt,group1)
dt<-dt[,list(group2,values,meanValue=mean(values)),by=group1]
dt
      group1 group2      values   meanValue
 [1,]      1      A  0.82122120  0.18810771
 [2,]      1      C  0.78213630  0.18810771
 [3,]      1      C  0.61982575  0.18810771
 [4,]      1      A -1.47075238  0.18810771
 [5,]      2      B  0.59390132  0.03354688
 [6,]      2      A  0.07456498  0.03354688
 [7,]      2      B -0.05612874  0.03354688
 [8,]      2      A -0.47815006  0.03354688
 [9,]      3      B  0.91897737 -0.20205707
[10,]      3      C -1.98935170 -0.20205707
[11,]      3      B -0.15579551 -0.20205707
[12,]      3      A  0.41794156 -0.20205707

ベンチマークはしていませんが、私の経験でははるかに高速です。

大規模なデータセットを扱う場合は検討する価値があると思う data.table の道を進むことにした場合は、ドキュメントを読む必要があります。彼ら。ただし、data.table はそのタイプがデータフレームであると主張するため (データテーブルはデータフレームから継承される)、data.table は通常、データフレームを期待するすべての関数で動作します。

[2011年2月]

[2012 年 8 月] Matthew からの更新:

2012 年 7 月に CRAN にリリースされた v1.8.2 の新機能は:=グループ別です。これは上記の回答と非常に似ていますが、参照によって新しい列を追加するdtため、コピーがなく、マージ手順や既存の列を再リストして集計と一緒に返す必要はありません。最初にする必要はなくsetkey、連続していないグループ (つまり、グループ化されていないグループ) に対処します。

これは、大規模なデータセットに対して大幅に高速であり、シンプルで短い構文を備えています。

dt <- as.data.table(df)
dt[, meanValue := mean(values), by = group1]

score 13 · Accepted Answer

ここでは、あなたが示す plyr 呼び出しよりも便利だと思いave()ます (plyr を直接使用してやりたいことができるかどうかを知るには、plyr に精通していません。できない場合は驚くでしょう!) または他のベース R 代替 ( aggregate()、tapply()):

> with(df, ave(values, group1, FUN = mean))
 [1] -0.121033381  0.004803931  0.758597929 -0.121033381  0.004803931
 [6]  0.758597929 -0.121033381  0.004803931  0.758597929 -0.121033381
[11]  0.004803931  0.758597929

within()またはを使用transform()して、この結果をに直接埋め込むことができdfます。

> df2 <- within(df, meanValue <- ave(values, group1, FUN = mean))
> head(df2)
  group1 group2     values    meanValue
1      1      A  0.4874291 -0.121033381
2      2      B  0.7383247  0.004803931
3      3      B  0.5757814  0.758597929
4      1      C -0.3053884 -0.121033381
5      2      A  1.5117812  0.004803931
6      3      C  0.3898432  0.758597929
> df3 <- transform(df, meanValue = ave(values, group1, FUN = mean))
> all.equal(df2,df3)
[1] TRUE

そして、順序が重要な場合:

> head(df2[order(df2$group1, df2$group2), ])
   group1 group2      values    meanValue
1       1      A  0.48742905 -0.121033381
10      1      A -0.04493361 -0.121033381
4       1      C -0.30538839 -0.121033381
7       1      C -0.62124058 -0.121033381
5       2      A  1.51178117  0.004803931
11      2      A -0.01619026  0.004803931

score 9 · Accepted Answer

x渡す関数に追加することはできませんddplyか?

df <- ddply( df, "group1", function(x)
             data.frame( x, meanValue = mean(x$values) ) )

score 2 · Accepted Answer

dplyr可能性:

library(dplyr)
df %>% 
  group_by(group1) %>%
  mutate(meanValue = mean(values))

これにより、元の順序でデータフレームが返されます。arrange(group1)"group1" で注文する場合は、パイプに追加します。

r - 集計値を元のデータ フレームに結合する

5 に答える 5

Related

Reference

r - 集計値を元のデータフレームに結合する