r - シリーズを並列セットに再番号付けする方法

Question

私はRで働いています。df次のようなデータフレームがあります。

> str(exp)
'data.frame':   691200 obs. of  19 variables:
 $ groupname: Factor w/ 8 levels "rowA","rowB",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ location : Factor w/ 96 levels "c1","c10","c11",..: 1 2 3 4 12 23 34 45 56 67 ...
 $ starttime: num  0 0 0 0 0 0 0 0 0 0 ...
 $ inadist  : num  0 0.2 0 0.2 0.6 0 0 0 0 0 ...
 $ smldist  : num  0 2.1 0 1.8 1.2 0 0 0 0 3.3 ...
 $ lardist  : num  0 0 0 0 0 0 0 0 0 1.3 ...
 $ fPhase   : Factor w/ 2 levels "Light","Dark": 2 2 2 2 2 2 2 2 2 2 ...
 $ fCycle   : Factor w/ 6 levels "predark","Cycle 1",..: 1 1 1 1 1 1 1 1 1 1 ...

別の列を追加したいと思います。これはtimepoint、その列starttimeの先頭を基準にしたものです。fCyclestarttime=1801timepoint=1fCycle='Cycle 1'

作成するための最良の方法は何df$timepointですか？

ETAおもちゃのデータセット：

starttime fCycle timepoint
1         1      1
2         1      2
3         1      3
4         1      4
5         2      1
6         2      2
7         2      3
8         2      4
9         3      1
10        3      2
11        3      3
12        4      1
13        4      2
14        4      3
15        5      1
16        5      2
17        6      1
18        6      2
19        6      3
20        6      4

score 4 · Accepted Answer

rleと組み合わせることができますsequence。ここにいくつかのサンプルコードがあります。出力はあなたが探していたものですか？

require(plyr)

mydf = data.frame(
  starttime = 1:20,
  fCycle    = c(rep(1:3, each = 4), rep(4:5, each = 3), rep(6, 2))
)

# sort data in increasing order of cycle and starttime
mydf = arrange(mydf, fCycle, starttime)

mydf = transform(mydf, timepoint = sequence(rle(fCycle)$lengths))

注：同じfCycle内に同じ開始時間が存在する可能性があるという事実に照らして、以下を使用する別のアプローチを次に示しますrank。ddply

# treat same starttimes in an fcycle identically
ddply(mydf, .(fCycle), transform, timepoint = rank(starttime, ties = 'min'))

# treat same starttimes in an fcycle using average
ddply(mydf, .(fCycle), transform, timepoint = rank(starttime, ties = 'average'))

score 2 · Accepted Answer

あなたが何を求めているのかよくわからないので、これは解決策の概要です。rle()関数を介して開始できるランレングスエンコーディング（RLE）から派生したものを求めているようです。

rle()出力には、各実行の長さが示されます（これを割り当てます）lengths。
各実行が発生するオフセットは、（を介してcumsum(c(1,lengths))）計算できます。
次に、これらをrep十分な回数（つまり、実行中の各アイテムに対して）繰り返すことができます。
位置（1:n）ごとに、実行の開始位置を減算するだけです。

編集：repステップ3で使用する必要はありません。長さを検索することができます。

r - シリーズを並列セットに再番号付けする方法

2 に答える 2

Related

Reference