r - R ifelse条件：継続的にNAの頻度

Question

私はRを初めて使用し、同様の質問を探していましたが、修正するための質問を見つけることができませんでした。助けていただければ幸いです。

私はデータフレームMを持っています：

            date value
1 182-2002-01-01 23.95
2 182-2002-01-02 17.47
3 182-2002-01-03  NA
4 183-2002-01-01  NA
5 183-2002-01-02  5.50
6 183-2002-01-03 17.02

私がする必要があるのは、NAが5未満の場合（継続的に）、前の番号（17.47）を繰り返すだけで、NAが5つ以上連続している場合は、1か月全体を削除する必要があります。

function rleを何度も試しましたが、うまくいきませんでした。ご協力いただきありがとうございます。

score 2 · Accepted Answer

デモンストレーションのために、質問を少し調整します。同様のデータセットを使用しますが、2つのNAを続けて使用します。これは非常に簡単に5に一般化されます、心配しないでください。また、ソリューションをより適切に示すデータセットを使用します

それで、最初に、あなたのデータを私が使用しようとしているもののように見せるための方法：

library(reshape)
M2<-data.frame(colsplit(M$date, "-", c("ID", "year", "month", "day")), 
               value=M$value)

これで問題は解決しました。これから使用するデータは次のとおりです。

library(reshape)
M2<-data.frame(colsplit(M$date, "-", c("ID", "year", "month", "day")), 
               value=M$value)

set.seed(1234)
M2<-expand.grid(ID=182, year=2002:2004, month=1:2, day=1:3, KEEP.OUT.ATTRS=FALSE)
M2 <- M2[with(M2, order(year, month, day, ID)),] #sort the data
M2$value <- sample(c(NA, rnorm(100)), nrow(M2), 
                   prob=c(0.5, rep(0.5/100, 100)), replace=TRUE)
M2

    ID year month day      value
1  182 2002     1   1 -0.5012581
7  182 2002     1   2  1.1022975
13 182 2002     1   3         NA
4  182 2002     2   1 -0.1623095
10 182 2002     2   2  1.1022975
16 182 2002     2   3 -1.2519859
2  182 2003     1   1         NA
8  182 2003     1   2         NA
14 182 2003     1   3         NA
5  182 2003     2   1  0.9729168
11 182 2003     2   2  0.9594941
17 182 2003     2   3         NA
3  182 2004     1   1         NA
9  182 2004     1   2 -1.1088896
15 182 2004     1   3  0.9594941
6  182 2004     2   1 -0.4027320
12 182 2004     2   2 -0.0151383
18 182 2004     2   3 -1.0686427

まず、1か月以内に2つ以上のNAが連続しているすべてのケースを削除します。

NA_run <- function(x, maxlen){
  runs <- rle(is.na(x$value))
  if(any(runs$lengths[runs$values] >= maxlen)) NULL else x
  }

library(plyr)
rem <- ddply(M2, .(ID, year, month), NA_run, 2)
rem

    ID year month day      value
1  182 2002     1   1 -0.5012581
2  182 2002     1   2  1.1022975
3  182 2002     1   3         NA
4  182 2002     2   1 -0.1623095
5  182 2002     2   2  1.1022975
6  182 2002     2   3 -1.2519859
7  182 2003     2   1  0.9729168
8  182 2003     2   2  0.9594941
9  182 2003     2   3         NA
10 182 2004     1   1         NA
11 182 2004     1   2 -1.1088896
12 182 2004     1   3  0.9594941
13 182 2004     2   1 -0.4027320
14 182 2004     2   2 -0.0151383
15 182 2004     2   3 -1.0686427

連続した2つのNAが削除されていることがわかります。残りの1つは、2つの異なる月に属しているためです。次に、残りのNAを入力します。NAが最初に正しい場合は、NAを維持するというna.rm=FALSE議論があります（これはあなたが望むものだと思います）。

library(zoo)
rem$value <- na.locf(rem$value, na.rm=FALSE)
rem

    ID year month day      value
1  182 2002     1   1 -0.5012581
2  182 2002     1   2  1.1022975
3  182 2002     1   3  1.1022975
4  182 2002     2   1 -0.1623095
5  182 2002     2   2  1.1022975
6  182 2002     2   3 -1.2519859
7  182 2003     2   1  0.9729168
8  182 2003     2   2  0.9594941
9  182 2003     2   3  0.9594941
10 182 2004     1   1  0.9594941
11 182 2004     1   2 -1.1088896
12 182 2004     1   3  0.9594941
13 182 2004     2   1 -0.4027320
14 182 2004     2   2 -0.0151383
15 182 2004     2   3 -1.0686427

これで、データを使用してこれを5以上にするために必要なのは、maxlen引数の値NA_runを5に変更することだけです。

編集：または、前の月から値をコピーしたくない場合：

library(zoo)
rem$value <- ddply(rem, .(ID, year, month), summarise, 
                   value=na.locf(value, na.rm=FALSE))$value
rem

    ID year month day      value
1  182 2002     1   1 -0.5012581
2  182 2002     1   2  1.1022975
3  182 2002     1   3  1.1022975
4  182 2002     2   1 -0.1623095
5  182 2002     2   2  1.1022975
6  182 2002     2   3 -1.2519859
7  182 2003     2   1  0.9729168
8  182 2003     2   2  0.9594941
9  182 2003     2   3  0.9594941
10 182 2004     1   1         NA
11 182 2004     1   2 -1.1088896
12 182 2004     1   3  0.9594941
13 182 2004     2   1 -0.4027320
14 182 2004     2   2 -0.0151383
15 182 2004     2   3 -1.0686427

score 0 · Accepted Answer

これは2つのステップで行います。

、、、またはベースの戦略rleで、小さなギャップを埋めます（連続して5つ未満のNA）。rollapplyshift
ステップ1の後にNAが残っている月を取り、その月全体をNAにする、、、またはベースのby戦略aggregate。ddply

r - R ifelse条件：継続的にNAの頻度

2 に答える 2

Related

Reference