2

次の形式でdata.frameを取得する必要があります。

  id1 id2 mean start end
1   A   D    4    12  15
2   B   E    5    14  15
3   C   F    6     8  10

の違いに基づいて重複行を生成しstart - endます。たとえば、最初の行に3行、2番目の行に1行、3番目の行に2行が必要です。開始フィールドと終了フィールドは、最終的なdata.frameで順番に並べる必要があります。このdata.frameの最終結果は次のようになります。

   id1 id2 mean start end
1    A   D    4    12  13
2    A   D    4    13  14
3    A   D    4    14  15
21   B   E    5    14  15
31   C   F    6     8   9
32   C   F    6     9  10

私は動作するこの関数を作成しましたが、非常にR'esqueコードで作成されていません:

dupData <- function(df){
    diff <- abs(df$start - df$end)
    ret <- {}

    #Expand our dataframe into the appropriate number of rows.
    for (i in 1:nrow(df)){
        for (j in 1:diff[i]){
            ret <- rbind(ret, df[i,])
        } 
    }

    #If matching ID1 and ID2, generate a sequential ordering of start & end dates
    for (k in 2:nrow(ret) - 1) {
        if ( ret[k,1] == ret[k + 1, 1] & ret[k, 2] == ret[k, 2]  ){ 
            ret[k, 5] <- ret[k, 4] + 1
            ret[k + 1, 4] <- ret[k, 5]  
        }
    }
    return(ret)
}

このコードを最適化する方法について誰かが提案を持っていますか?適用できる機能はありplyrますか?

#sample daters
df <- data.frame(id1 = c("A", "B", "C")
        , id2 = c("D", "E", "F")
        , mean = c(4,5,6)  
        , start = c(12,14,8)
        , end = c(15, 15, 10)
)
4

4 に答える 4

2

これを行うにはおそらくもっと一般的な方法がありますが、以下ではを使用しrbind.fillます。

cbind(df[rep(1:nrow(df), times = apply(df[,4:5], 1, diff)), 1:3],
      rbind.fill(apply(df[,4:5], 1, function(x)
                       data.frame(start = x[1]:(x[2]-1), end = (x[1]+1):x[2]))))


##     id1 id2 mean start end
## 1     A   D    4    12  13
## 1.1   A   D    4    13  14
## 1.2   A   D    4    14  15
## 2     B   E    5    14  15
## 3     C   F    6     8   9
## 3.1   C   F    6     9  10
于 2010-08-13T18:59:47.980 に答える
1

パッケージのsurvSplit機能は、survivalこれらの線に沿って何かを実行しますが、もう少しオプションがあります(たとえば、カットタイムの指定)。あなたはそれを使うことができるかもしれません、あるいはあなたがあなたの単純化されたバージョンをより良く実装することができるかどうか見るためにそのコードを見ることができるかもしれません。

于 2010-08-13T18:08:36.430 に答える
1

間違いなく、これは遅刻がこれまでにないほど良い時期の1つではありませんが、私は同様の問題を抱えていて、これを思いつきました...

library(plyr)
ddply(df, c("id1", "id2", "mean", "start", "end"), summarise,
                    sq=seq(1:(end-start)))
于 2010-11-04T11:28:25.727 に答える
0

年も後に、今日人気のあるパッケージを使用して代替案を提供するdata.table2つの代替案tidyverse

オプション1:

library(data.table)
setDT(mydf)[, list(mean, start = start:(end-1)), .(id1, id2)][, end := start + 1][]
   id1 id2 mean start end
1:   A   D    4    12  13
2:   A   D    4    13  14
3:   A   D    4    14  15
4:   B   E    5    14  15
5:   C   F    6     8   9
6:   C   F    6     9  10

オプション2:

library(tidyverse)
mydf %>% 
  group_by(id1, id2, mean) %>% 
  summarise(start = list(start:(end-1))) %>% 
  unnest(start) %>% 
  mutate(end = start+1)
于 2017-12-14T06:58:07.803 に答える