多くの変数 (年、サイト、場所、画像番号、分類法、およびカウント) を含む、何年にもわたる大規模なデータ セットがあります。Year、Site、Location の一意の変数は、データ セット全体で安定しており、撮影された写真の数はほとんど安定しています (ある場所ですべての写真を撮るのを忘れることがあります)。しかし、分類変数を設定したので、特定の分類群が写真のセット内に存在しない場合、そのサイトの位置データには含まれません (ゼロ データはありません)。
しかし、何年にもわたって平均密度を計算するときが来たら、計算でそのゼロデータを表すことが重要です.
これは、私のデータテーブルがどのように見えるかの例です。
Year<-c(2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005,2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005 ,2005, 2005, 2005, 2005 ,2005 ,2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005, 2005 ,2005, 2005 ,2005, 2005, 2005 ,2005 ,2005 ,2005, 2005 ,2005 ,2005, 2005, 2005, 2005, 2005 ,2006, 2006, 2006, 2006, 2006, 2006 ,2006 ,2006, 2006, 2006, 2006 ,2006 ,2006 ,2006 ,2006 ,2006 ,2006 ,2006, 2006, 2006, 2006, 2006 ,2006 ,2006, 2006 ,2006, 2006, 2006,2006, 2006, 2006 ,2006 ,2006, 2006 ,2006, 2006 ,2006 ,2006, 2006, 2006, 2006 ,2006, 2006, 2006, 2006, 2006 ,2006,2006,2006,2006,2006)
Site<- c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,2,2,2,2)
Location<-c(1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3,3, 3, 3, 3, 3, 3,3,3,3,3)
Photo<-c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4 ,1 ,2, 3, 4, 1, 2 ,3 ,4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1 ,2 ,3 ,4 ,1 ,2 ,3 ,4 ,1 ,2 ,3 ,4 ,1 ,2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 4,1,2,3,4)
Taxonomy<-c('B' ,'B' ,'B' ,'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C','C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A','B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B','A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'B', 'B', 'B','C', 'C', 'C', 'C')
Count<-rnorm(119,mean=5)
DF<-data.frame(Year,Site,Location,Photo,Taxonomy,Count)
このサンプル データ セットに 2 つの問題を追加しました。2006 年の最後から 2 番目のサイト/ロケーション (115 行目) の写真がありません。また、分類群 C は 2005 年の最初の場所では発生せず、2006 年の最後の場所でのみ発生します。
人生が完璧で、ゼロのデータがすべて私のデータセットに含まれていたら、私はただ行うことができました
aggregate(Count~Year+Site+Location+Photo+Taxonomy,DF,mean)
また
aggregate(Count~Year+Site+Taxonomy,DF,mean)
何年にもわたってサイトだけを見たいと思ったら。
しかし、「ゼロ」のデータがなければ、私の手段はすべてオフになります。
すべてゼロのデータを追加するコードを書き込もうとしましたが、データ セットが巨大になるので、その方法には行きたくありません。