r - 行にインデックスを付けてから、別の列から指定された時間枠内でそれに続くすべての値を検索する

Question

各サンプルの開始点を示す1つの列を使用し、最大時間に達するまで開始点に続くポイント（行）にフラグを立てます。

たとえば、私のデータ（d）は次のようになります。

> head(d)
  Sample Seconds Value FLAG
1      A     356     1    1
2      A     357     1   NA
3      A     358     9   NA
4      A     359     4   NA
5      A     400     1   NA
6      A     401     3   NA

再現可能なコピーはここにあります：

d <- structure(list(Sample = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L
), .Label = c("A", "B", "C"), class = "factor"), Seconds = c(356L, 
357L, 358L, 359L, 400L, 401L, 402L, 403L, 2955L, 2957L, 2959L, 
3001L, 3002L, 3004L, 2548L, 2549L, 2552L, 2553L, 2554L, 2555L, 
2556L, 2557L, 2558L), Value = c(1L, 1L, 9L, 4L, 1L, 3L, 7L, 2L, 
25L, 17L, 23L, 47L, 34L, 15L, 30L, 16L, 17L, 12L, 6L, 8L, 6L, 
6L, 5L), FLAG = c(1L, NA, NA, NA, NA, NA, NA, NA, 1L, NA, NA, 
NA, NA, NA, 1L, NA, NA, NA, NA, NA, NA, NA, NA)), .Names = c("Sample", 
"Seconds", "Value", "FLAG"), class = "data.frame", row.names = c(NA, 
-23L))

各サンプルの最初の5秒間のデータのみが必要です。フラグはサンプルの最初の行を示します（これは簡略化されたバージョンであることに注意してください。実際のデータでは、開始点を見つけるためにフラグハンドルを設定する必要があります）。開始点（Flag = 1）で行を取得d$Secondsしてから、開始点から5秒のウィンドウ内の各行に1つの値を配置します。一部のサンプルには開始から4秒と6秒のポイントがあるため、5を追加することはできません。大規模なデータセットを使用しているため、forループも回避しようとしています。何か案は？（データ形式については申し訳ありません-私は以前に投稿したことがなく、画像を入れることができませんでした）

score 1 · Accepted Answer

以下を使用したベースRの1つの方法を次に示しbyます。

d$within5 <- unlist(
                by(
                    d,
                    d$Sample,
                    function (x) x$Seconds <= (x$Seconds[!is.na(x$FLAG)]+5)
                  )
                   )

結果：

> head(d)
  Sample Seconds Value FLAG within5
1      A     356     1    1    TRUE
2      A     357     1   NA    TRUE
3      A     358     9   NA    TRUE
4      A     359     4   NA    TRUE
5      A     400     1   NA   FALSE
6      A     401     3   NA   FALSE

r - 行にインデックスを付けてから、別の列から指定された時間枠内でそれに続くすべての値を検索する

1 に答える 1

Related

Reference