グループを元の順序 (データ フレームの最初の出現に基づく順序) に保ちながら、データ フレームを集約するのに問題があります。私はそれを正しくすることができましたが、もっと簡単な方法があることを望んでいました。
作業するサンプル データ セットを次に示します。
set.seed(7)
sel.1 <- sample(1:5, 20, replace = TRUE) # selection vector 1
sel.2 <- sample(1:5, 20, replace = TRUE)
add.1 <- sample(81:100) # additional vector 1
add.2 <- sample(81:100)
orig.df <- data.frame(sel.1, sel.2, add.1, add.2)
注意点: データをグループ化する方法を決定する 2 つの選択列があります。それらは同じであり、それらの名前は知られています。このデータには 2 つの列しか追加していませんが、さらに多くの列がある可能性があります。わかりやすくするために「sel」と「add」で始まる列名を付けましたが、実際のデータには別の名前が付いています (そのため、grep
トリックはクールですが、ここでは役に立ちません)。
私がやろうとしているのは、データ フレームを「sel」列に基づいてグループに集約し、すべての「add」列を合計することです。aggregate
これは、次のように使用すると簡単です。
# Get the names of all the additional columns
all.add <- names(orig.df)[!(names(orig.df)) %in% c("sel.1", "sel.2")]
aggr.df <- aggregate(orig.df[,all.add],
by=list(sel.1 = orig.df$sel.1, sel.2 = orig.df$sel.2), sum)
問題は、結果が「sel」列によって順序付けられることです。各グループの元データ初出順に並べてほしい。
これを機能させるための私の最善の試みは次のとおりです。
## Attempt 1
# create indices for each row (x) and find the minimum index for each range
index.df <- aggregate(x = 1:nrow(orig.df),
by=list(sel.1 = orig.df$sel.1, sel.2 = orig.df$sel.2), min)
# Make sure the x vector (indices) are in the right range for aggr.df
index.order <- (1:nrow(index.df))[order(index.df$x)]
aggr.df[index.order,]
## Attempt 2
# get the unique groups. These are in the right order.
unique.sel <- unique(orig.df[,c("sel.1", "sel.2")])
# use sapply to effectively loop over data and sum additional columns.
sums <- t(sapply(1:nrow(unique.sel), function (x) {
sapply(all.add, function (y) {
sum(aggr.df[which(aggr.df$sel.1 == unique.sel$sel.1[x] &
aggr.df$sel.2 == unique.sel$sel.2[x]), y])
})
}))
data.frame(unique.sel, sums)
これらは私に正しい結果をもたらしますが、誰かがより簡単な解決策を指摘できることを望んでいました. ソリューションが標準の R インストールに付属するパッケージで機能する場合は、それが望ましいでしょう。
aggregate
とのドキュメントを見てきましたがmatch
、答えが見つかりませんでした ( の「keep.original.order」パラメーターのようなものを望んでいたと思いますaggregate
)。
どんな助けでも大歓迎です!
更新:(誰かがこれに出くわした場合に備えて)
さらに数日間試した後に見つけた最もクリーンな方法は次のとおりです。
unique(data.frame(sapply(names(orig.df), function(x){
if(x %in% c("sel.1", "sel.2")) orig.df[,x] else
ave(orig.df[,x], orig.df$sel.1, orig.df$sel.2, FUN=sum)},
simplify=FALSE)))