r - R: 最大値を持つサブセット/グループデータフレーム?

Question

次のようなデータフレームがあるとします。

  gid set  a  b
1   1   1  1  9
2   1   2 -2 -3
3   1   3  5  6
4   2   2 -4 -7
5   2   6  5 10
6   2   9  2  0

gid最大set値をa持つ一意のデータフレームをサブセット化/グループ化するにはどうすればよいbですか?

ここで、ええと...

1,3,0
2,9,1

SQL ではばかげた単純なことですが、R をもう少しうまく制御したいので...

score 6 · Accepted Answer

簡単なことdplyr：

dat <- read.table(text="gid set  a  b
1   1  1  9
1   2 -2 -3
1   3  5  6
2   2 -4 -7
2   6  5 10
2   9  2  0", header=TRUE)

library(dplyr)

dat %>%
  group_by(gid) %>%
  filter(row_number() == which.max(set)) %>%
  mutate(greater=a>b) %>%
  select(gid, set, greater)

## Source: local data frame [2 x 3]
## Groups: gid
## 
##   gid set greater
## 1   1   3   FALSE
## 2   2   9    TRUE

本当にとが必要1で0、dplyr グループが不安を引き起こす場合:

dat %>%
  group_by(gid) %>%
  filter(row_number() == which.max(set)) %>%
  mutate(greater=ifelse(a>b, 1, 0)) %>%
  select(gid, set, greater) %>%
  ungroup

## Source: local data frame [2 x 3]
## 
##   gid set greater
## 1   1   3       0
## 2   2   9       1

パイプなしで同じことを行うことができます：

ungroup(
  select(
    mutate(
      filter(row_number() == which.max(set)), 
      greater=ifelse(a>b, 1, 0)), gid, set, greater))

でも…でも…なんで?! :-)

score 3 · Accepted Answer

元のdata.tableデータがdf.

library(data.table)

setDT(df)[, .(set = max(set), b = as.integer(a > b)[set == max(set)]), gid]
#    gid set b
# 1:   1   3 0
# 2:   2   9 1

複数のmax(set)行を説明するためset == max(set)に、サブセットとして使用したことに注意してください。これにより、最大の同点がある行と同じ数が返されます（それがまったく意味がある場合）。

また、別のデータテーブルオプションである @thelatemail のご厚意により:

setDT(df)[, list(set = max(set), ab = (a > b)[which.max(set)] + 0), by = gid]
#    gid set ab
# 1:   1   3  0
# 2:   2   9  1

score 1 · Accepted Answer

ではbase R、使用できますave

indx <- with(df, ave(set, gid, FUN=max)==set)
#in cases of ties
#indx <- with(df, !!ave(set, gid, FUN=function(x) 
#                  which.max(x) ==seq_along(x)))


transform(df[indx,], greater=(a>b)+0)[,c(1:2,5)]
#   gid set greater
# 3   1   3       0
# 6   2   9       1

r - R: 最大値を持つサブセット/グループ データ フレーム?

3 に答える 3

Related

Reference

r - R: 最大値を持つサブセット/グループデータフレーム?