r - グループごとにランダムにサンプリングし、新しいデータフレームを作成し、グループ内のすべてのエンティティがサンプリングされるまで繰り返します

Question

地域ごとに 1 つのランダムなサイトを取得し、新しいデータフレームを作成して、すべてのサイトがサンプリングされるまでこれらのプロセスを繰り返します。したがって、各データフレームには、同じ地域の同じサイトは含まれません。

私の実際のデータフレームのいくつかの地域には、他の地域よりも多くのサイトがあります (地域 C には 4 つのサイトがあります)。これらの行を削除したい (おそらく、複数のデータフレームを作成する前にこれを行う必要があります)。

データフレームの例を次に示します (実際のデータフレームには 100 を超えるリージョンとリージョンごとに 10 を超えるサイトがあります)。

mydf <- read.table(header = TRUE, text = 'V1 V2 Region Site 
5 1 A X1
5 6 A X2
8 9 A X3
2 3 B X1
3 1 B X2
7 8 B X3
1 2 C X1
9 4 C X2
4 5 C X3
6 7 C X4')

次のコードを 3 回繰り返すと、特定の地域の同じサイトを含むデータフレームが生成されます (2 番目と 3 番目のテーブルには、地域 A のサイト X2 があります)。

do.call(rbind, lapply(split(mydf, mydf$Region), function(x) x[sample(nrow(x), 1), ]))

  V1 V2 Region Site
A  8  9      A   X3
B  2  3      B   X1
C  6  7      C   X4

V1 V2 Region Site
A  5  6      A   X2
B  7  8      B   X3
C  9  4      C   X2

  V1 V2 Region Site
A  5  6      A   X2
B  3  1      B   X2
C  6  7      C   X4

すべてのデータフレームにすべての地域が含まれるが、各データフレームには固有の地域とサイトの組み合わせが含まれるように、複数のデータフレームを作成する方法を教えてください。

編集：ここに予想される出力があります。これらを生成するには、最初のサンプリングで、すべてのリージョンからランダムに 1 つのサイト (行) を抽出し、データフレームを作成します。2 回目のサンプリングでは、同じプロセスを繰り返しますが、特定の地域の同じサイトを描画することはできません。私が欲しいのは、Region-Site のユニークな組み合わせを含む独立したデータフレームです。

V1 V2 Region Site
5 1 A X1
7 8 B X3
1 2 C X1

V1 V2 Region Site
5 6 A X2
3 1 B X2
4 5 C X3

V1 V2 Region Site
8 9 A X3
2 3 B X1
9 4 C X2

r - グループごとにランダムにサンプリングし、新しいデータフレームを作成し、グループ内のすべてのエンティティがサンプリングされるまで繰り返します

2 に答える 2

Related

Reference