1

600 行と 58000 のデータ セットがあります。これが私がする必要があることです:

  1. データ セットを 3 つの部分、つまり 25%、50%、75% の最大欠損値に分割します (これを (ai) と呼びます)。
  2. 各 ai は、マイナー アレル頻度 (0、0.05、0.01、0.1) に基づいて分割する必要があります。マイナー アレル頻度の定義については、付属のコード「MAF」を参照してください。
  3. すべての組み合わせ (3*4) について、3 つの方法を使用して欠損値を推定し、すべての組み合わせ (3*4*3) に特定のモデルを適用する必要があります。

現在、36 個のデータセットがあります。私の大学の 1 つは、スーパーコンピューター (大学クラスター-Linux) 上のすべての組み合わせに対して 36 のディレクトリを作成し、各データを個別に処理し、最終的に結果を組み合わせることができると提案しました。誰でもそれを行う方法を知っていますか? 私の質問を少し明確にするかもしれないデータセットと簡単なRコードを添付しています! よろしくお願いいたします。

   MAF<-function(geno){        ## markers are in the rows
 geno[(geno!=0) & (geno!=1) & (geno!=-1)] <- NA
 geno <- as.matrix(geno)
 ## calc_Freq for alleles
 n0 <- apply(geno==0,1,sum,na.rm=T)
 n1 <- apply(geno==1,1,sum,na.rm=T)
 n2 <- apply(geno==-1,1,sum,na.rm=T)
 n <- n0 + n1 + n2
 ## calculate allele frequencies
 p <- ((2*n0)+n1)/(2*n)
 q <- 1 - p
 maf  <- pmin(p, q)
 frq.index <- maf<=.95 & maf>=.05 ## keep minor allele frequency larger than 0.05
 geno_maf <- geno[frq.index,]
 geno_maf
 }  
4

0 に答える 0