1

現在signeR、体細胞変異のシグネチャを作成できるパッケージを使用しています。まず、 vignetteからの結果を再現したいと思います。

.vcfご覧のとおり、入力データファイル には 2 つのオプションがあり、以前に前処理されたものは、関数mutation counts fileによって取得された単純なデータ フレームです。genCountMatrixFromVcf().vcf...

もちろん、ここで.vcfはいくつかのサンプルファイルと、さらなる分析の準備が整ったこのミューテーション カウント マトリックスを見つけることができます。

ビネットでは、彼らは(私が読んだように)このデータを使用しました:SUBSTITUTIONS_13Apr2012_snz.txt。そこで.vcf、このデータ フレームからファイルを作成し、ビネットのすべてのステップを実行することにしました。

.vcfそこで、上記のデータから構築するためのいくつかの簡単な手順を作成しました。

dat <- read.table('SUBSTITUTIONS_13Apr2012_snz.txt', header = T, sep = '\t')
t <- dat[,c(3,4,6,7)]
t$chr <- paste("chr", t$chr, sep="")
colnames(t) <- c('chr','pos1','ref','alt')
t$ID <- rep('.',nrow(t)) 
t$QUAL <- rep('.',nrow(t))
t$FILTER <- rep('.',nrow(t))         
t$INFO <- rep('.',nrow(t))
t$FORMAT <- rep('.',nrow(t))
t$Sample <- rep('.',nrow(t))
t <- t[, c('chr', 'pos1', 'ID', 'ref', 'alt', 'QUAL',   'FILTER',   'INFO')]
colnames(t) <- c('#CHROM',  'POS',  'ID',   'REF',  'ALT',  'QUAL', 'FILTER',   'INFO')

その結果、次のようになります。

> head(t)
  #CHROM     POS ID REF ALT QUAL FILTER INFO
1   chr1  809687  .   G   C    .      .    .
2   chr1  819245  .   G   T    .      .    .
3   chr1 1911011  .   C   G    .      .    .
4   chr1 2112413  .   T   C    .      .    .
5   chr1 2927666  .   A   G    .      .    .
6   chr1 3359791  .   C   T    .      .    .

.vcfファイルのすべての必須列が存在します。以前にこのタイプのファイルを作成しましたが、使用readVcfAsVRanges()したものはすべて正常に機能しました。

ただし、ここのsigneRパッケージにはいくつかの問題があります...このミューテーションカウントマトリックスを作成しないと、エラーが発生するためです:

vcfobj <- readVcf("21_breast.vcf", "hg19")
mut <- genCountMatrixFromVcf(BSgenome.Hsapiens.UCSC.hg19, vcfobj)
Error in normalizeDoubleBracketSubscript(i, x, exact = exact, error.if.nomatch = FALSE) : 
  subscript is out of bounds

.vcfそこで、「動作中」のファイルと比較して、自分のファイルの何が問題なのかを調べようとしました...

私のファイル:

vcfobj
class: CollapsedVCF 
dim: 183916 0 
rowRanges(vcf):
  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
  DataFrame with 0 columns: 
geno(vcf):
  SimpleList of length 0:

「動作中」のサンプル ファイル (実際には rungenCountMatrixFromVcf()関数の後にエラーもありますが、違います... 現時点では重要ではありません)。

example <- readVcf("example.vcf", "hg19")
example
class: CollapsedVCF 
dim: 44 7 
rowRanges(vcf):
  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
  DataFrame with 1 column: INFO
  Fields with no header: INFO 
geno(vcf):
  SimpleList of length 5: GT, AD, DP, GQ, PL
geno(header(vcf)):
      Number Type    Description                                                                           
   GT 1      String  Genotype                                                                              
   AD .      Integer Allelic depths for the ref and alt alleles in the order listed                        
   DP 1      Integer Approximate read depth (reads with MQ=255 or with bad mates are filtered)             
   GQ 1      Integer Genotype Quality                                                                      
   PL G      Integer Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification

あなたが見るように、dim私はそこにある値が異なる0ので、それが問題かもしれません。.vcfファイルを修正する方法を教えてください。

4

0 に答える 0