次のようなデータフレームがあります。列順に並んでいますtime
。
入力 -
df = data.frame(time = 1:20,
grp = sort(rep(1:5,4)),
var1 = rep(c('A','B'),10)
)
head(df,10)
time grp var1
1 1 1 A
2 2 1 B
3 3 1 A
4 4 1 B
5 5 2 A
6 6 2 B
7 7 2 A
8 8 2 B
9 9 3 A
10 10 3 B
これまでのところ、つまり各グループのその時点まで、個別の値var2
を計算しない別の変数を作成したいと思います。これは、 を使用した場合に得られるものとは少し異なります。var1
time
grp
n_distinct
期待される出力 -
time grp var1 var2
1 1 1 A 1
2 2 1 B 2
3 3 1 A 2
4 4 1 B 2
5 5 2 A 1
6 6 2 B 2
7 7 2 A 2
8 8 2 B 2
9 9 3 A 1
10 10 3 B 2
これについて言う関数を作成し、cum_n_distinct
それを次のように使用したい-
d_out = df %>%
arrange(time) %>%
group_by(grp) %>%
mutate(var2 = cum_n_distinct(var1))