だから私が持っているのは、さまざまな年齢のタラの体重のデータです。このデータは、時間の経過とともにいくつかの場所で取得されます。
私が作成したいのは「年齢別体重」で、基本的には特定の年齢での体重の平均値です。毎年、場所ごとにこれを行いたいと思います。ただし、年齢は同じ方法でサンプリングされていないため (捕獲されたすべての古い魚が測定され、若い魚はサブサンプリングされます)、通常の平均を作成することはできません。サンプルをブートストラップしたいと思います。
ブートストラップは、年齢ごとの体重の 5 つのランダムな値を取り出し、平均値を作成して、これを 1000 回繰り返し、平均値の平均を作成する必要があります。値を再度使用できるようにする必要があります (置換)。これは、毎年、すべての AreaCode で年齢ごとに行う必要があります。依存要因: 年-場所-年齢。
これが私のデータがどのように見えるかの例です。
df <- data.frame( Year= rep(c(2000:2008),2), AreaCode = c("39G4", "38G5","40G5"), Age = c(0:8), IndWgt = c(rnorm(18, mean=5, sd=3)))
> df
Year AreaCode Age IndWgt
1 2000 39G4 0 7.317489899
2 2001 38G5 1 7.846606144
3 2002 40G5 2 0.009212455
4 2003 39G4 3 6.498688035
5 2004 38G5 4 3.121134937
6 2005 40G5 5 11.283096043
7 2006 39G4 6 0.258404136
8 2007 38G5 7 6.689780137
9 2008 40G5 8 10.180511929
10 2000 39G4 0 5.972879108
11 2001 38G5 1 1.872273650
12 2002 40G5 2 5.552962065
13 2003 39G4 3 4.897882549
14 2004 38G5 4 5.649438631
15 2005 40G5 5 4.525012587
16 2006 39G4 6 2.985615831
17 2007 38G5 7 8.042884181
18 2008 40G5 8 5.847629941
AreaCode にはさまざまな場所が含まれており、実際には 85 の異なるレベルがあります。時系列は 1991 年から 2013 年まで、0 歳から 15 歳までです。IndWgt には重みが含まれます。データ フレーム全体の行の長さは 185726 です。
また、すべての場所とすべての年にすべての年齢が存在するわけではありません。これが問題になるかどうかはわかりません。スクリプトが特定の行番号への参照に基づいていないためです。重みの列にいくつかの NA 値がありますが、事前に削除することができます。
replicate
、およびapply
または別のplyr
機能を使用する必要があるのではないかと考えていました。関数を理解しようとしましたが、 の下に引数を記述するかどうか、その場合はどのようにboot
記述するかはよくわかりません。statistics
ええ、基本的にはわかりません。
私が得ることができるどんな助けにも感謝します!