r - データが連続していない場合、値 y に最も近い n 値をランダムにサンプリングするにはどうすればよいですか?

Question

種のリスト、その数、および調査開始からの日数を含むデータセットがあります。多くの日がサンプリングされていないため、日は連続していません。たとえば、5 日、6 日、9 日、10 日、15 日、34 日、39 日などに数えられた鳥がいる可能性があります。最も早い日付を 0 日目に設定しました。

サンプルデータ:

species     counts      day
Blue tit    234         0
Blue tit    24          5
Blue tit    45          6
Blue tit    32          9
Blue tit    6           10
Blue tit    98          15
Blue tit    40          34
Blue tit    57          39
Blue tit    81          43
..................

このデータをブートストラップし、結果のデータセットを取得する必要があります。ここで、いつ開始するか、どの間隔で進めるか、サンプリングするポイント数を指定します。

例: 5 日目を開始日として無作為に選択し、間隔を 30、サンプリングする行数を 2 とします。これは、5 日に開始し、それに 30 を追加して、35 日前後の 2 行を探すことを意味します。（ただし、35日目自体ではありません）。この場合、day が 34 と 39 の 2 つの行を取得します。

次に、30 を 35 に加算し、65 付近の 2 つのポイントを探します。すすぎ、データセットの最後に到達するまで繰り返します。

サンプリングを行うためにこの関数を作成しましたが、欠陥があります (以下を参照)。

resample <- function(x, ...) x[sample.int(length(x), ...)]
 locate_points<- function(dataz,l,n) #l is the interval, n is # points to sample. This is called by another function that specifies start time among other info.
{
   tlength=0
   i=1
    while(tlength<n)   
    {
        low=l-i
        high=l+i
        if(low<=min(dataz$day)) { low=min(dataz$day) }
        if(high>=max(dataz$day)) { high=max(dataz$day) }
        test=resample(dataz$day[dataz$day>low & dataz$day<high & dataz$day!=l])
          tlength=length(test)
         i=i+1
      } 
  test=sort(test)
  k=test[1:n]
 return (k)
 }

サポートが必要な 2 つの問題:

私の関数は目的のポイント数を返しますが、検索値を中心としていません。幅が広くなるにつれて、より多くのポイントが得られ、それらを並べ替えて最初の n を選択すると、それらは低い値にならない傾向があるため、理にかなっています。
次に、実際の行を取得するにはどうすればよいですか? 今のところwhich、を使用してこれらの行を検索し、rbindそれらの行をまとめて 'ing する別の関数があります。もっと良い方法があるはずです。

ありがとう！

score 3 · Accepted Answer

n = 2の場合に完全に機能するCharlesのソリューションが気に入りました。残念ながら、大きなウィンドウには拡張できません。OPで説明されている問題がまだあります。大きなウィンドウでは、選択が検索値を中心にしていません。n が偶数であることを考えると、チャールズのアイデアに大きく基づいて、次の解決策を思い付きました。

関数は境界を制御します。100 日があり、次の中間点が最後の 2 番目の日である場合、4 のウィンドウはインデックス 101 を選択することを意味し、これによりが得られNAます。この関数は、ウィンドウをシフトして、選択したすべてのインデックスが元のデータ内に収まるようにします。stこれには、start ( )、length( l)、および window( n) の値によっては、開始と終了の値が 2 回選択される可能性が高くなるという副作用もあります。長さは常に少なくともウィンドウサイズの 2 倍にする必要があります。

関数の出力は、ブートストラップサンプルのインデックスです。posベクトルとデータフレームで Charlesの変数として使用できます。

bboot <- function(day,st,l,n){
  mid <- seq(st,max(day),by=l)
  x <-sort(setdiff(day,mid))
  lx <- length(x)

  id <- sapply(mid,
          function(y){
            m <- match(T,x>y)
            seq(
              from=min( lx-n, max(1,m+(-n/2)) ),
              to=min( lx, max(n,m+(n/2-1)) )
            )
          }
        )

  pos <- match(x[id],day)
  return(pos)
}

それで

>   day <- sample(1:100,50)
> sample.rownr <- bboot(day,10,20,6)
> sort(day)
 [1]  3  4  5  7  9 10 13 15 16 18 19 21 22 24 25 26 27 28 29 
[20] 30 31 32 35 36 38 40 45 49 51 52 54 55 58 59 62 65 69 72 73
[40] 74 80 84 87 88 91 92 94 97 98 99
> day[sample.rownr]
 [1]  5  7  9 13 15 16 27 28 29 31 32 35 40 45 49 51 52 54 62 
[20] 65 69 72 73 74 84 87 88 91 92 94
>

編集：時系列のブートストラップに関しては、時系列のCRANタスクビュー、特にリサンプリングに関するセクションを確認する必要があります。不規則な時系列の場合、このzooパッケージは便利な他の機能も多数提供します。

score 1 · Accepted Answer

次のようなものはどうですか？

day = 1:1000

search = seq(from=5, to=max(day), by=30)
x = sort(setdiff(day, search))
pos = match(x[unlist(lapply(findInterval(search, x), seq, len=2))], day)

day[pos]

data.frameから行を取得するには、サブセット化するだけです。

rows = data[pos, ]

これは、unlist / lapply/seqコンボよりもわずかにクリーンです。

pos = match(x[outer(c(0, 1), findInterval(search, x), `+`)], day)

また、より大きなウィンドウ（たとえば、4）が必要な場合は、少し前に戻るだけです。

pos = match(x[outer(-1:2, findInterval(search, x), `+`)], day)

r - データが連続していない場合、値 y に最も近い n 値をランダムにサンプリングするにはどうすればよいですか?

2 に答える 2

Related

Reference