3

R を使用してグループごとに変数の実行中の最大値を見つける必要があります。変数は、を使用してグループ内で時間順に並べ替えられますdf[order(df$group, df$time),]

私の変数にはいくつかの NA がありますが、この計算ではそれらをゼロに置き換えることで対処できます。

これは、データフレーム df がどのように見えるかです:

(df <- structure(list(var = c(5L, 2L, 3L, 4L, 0L, 3L, 6L, 4L, 8L, 4L),
               group = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L),
                                 .Label = c("a", "b"), class = "factor"),
               time = c(1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L)),
          .Names = c("var", "group","time"),
          class = "data.frame", row.names = c(NA, -10L)))

#    var group time
# 1    5     a    1
# 2    2     a    2
# 3    3     a    3
# 4    4     a    4
# 5    0     a    5
# 6    3     b    1
# 7    6     b    2
# 8    4     b    3
# 9    8     b    4
# 10   4     b    5

そして、変数 curMax を次のようにします。

var  |  group  |  time  |  curMax
5       a         1         5
2       a         2         5
3       a         3         5
4       a         4         5
0       a         5         5
3       b         1         3
6       b         2         6
4       b         3         6
8       b         4         8
4       b         5         8

Rで実装する方法があれば教えてください。

4

2 に答える 2

6

試すことができdata.tableます。'data.frame' を 'data.table' ( ) に変換し、'group'でグループ化して、'var'setDT(df1)を取得し、それを新しい変数 ('curMax') に代入 ( ) します。cummax:=

library(data.table)
setDT(df1)[, curMax := cummax(var), by = group]

@Michael Chiricoがコメントしたように、データがorder「時間」によって編集されていない場合、「i」でそれを行うことができます

setDT(df1)[order(time), curMax:=cummax(var), by = group]

またはdplyr

library(dplyr)
df1 %>% 
    group_by(group) %>%
    mutate(curMax = cummax(var)) 

明示的な順序付けが必要な場合df1は、tbl_sqlarrange

df1 %>% 
    group_by(group) %>%
    arrange(time, .by_group=TRUE) %>%
    mutate(curMax = cummax(var)) 

またdbplyr::window_order

library(dbplyr)

df1 %>% 
    group_by(group) %>%
    window_order(time) %>%
    mutate(curMax = cummax(var)) 
于 2015-12-03T15:16:39.047 に答える
4

あなたはそうすることができます:

df$curMax <- ave(df$var, df$group, FUN=cummax)
于 2015-12-03T15:17:59.227 に答える