現在signeR
、体細胞変異のシグネチャを作成できるパッケージを使用しています。まず、 vignetteからの結果を再現したいと思います。
.vcf
ご覧のとおり、入力データファイル には 2 つのオプションがあり、以前に前処理されたものは、関数mutation counts file
によって取得された単純なデータ フレームです。genCountMatrixFromVcf()
.vcf...
もちろん、ここで.vcf
はいくつかのサンプルファイルと、さらなる分析の準備が整ったこのミューテーション カウント マトリックスを見つけることができます。
ビネットでは、彼らは(私が読んだように)このデータを使用しました:SUBSTITUTIONS_13Apr2012_snz.txt。そこで.vcf
、このデータ フレームからファイルを作成し、ビネットのすべてのステップを実行することにしました。
.vcf
そこで、上記のデータから構築するためのいくつかの簡単な手順を作成しました。
dat <- read.table('SUBSTITUTIONS_13Apr2012_snz.txt', header = T, sep = '\t')
t <- dat[,c(3,4,6,7)]
t$chr <- paste("chr", t$chr, sep="")
colnames(t) <- c('chr','pos1','ref','alt')
t$ID <- rep('.',nrow(t))
t$QUAL <- rep('.',nrow(t))
t$FILTER <- rep('.',nrow(t))
t$INFO <- rep('.',nrow(t))
t$FORMAT <- rep('.',nrow(t))
t$Sample <- rep('.',nrow(t))
t <- t[, c('chr', 'pos1', 'ID', 'ref', 'alt', 'QUAL', 'FILTER', 'INFO')]
colnames(t) <- c('#CHROM', 'POS', 'ID', 'REF', 'ALT', 'QUAL', 'FILTER', 'INFO')
その結果、次のようになります。
> head(t)
#CHROM POS ID REF ALT QUAL FILTER INFO
1 chr1 809687 . G C . . .
2 chr1 819245 . G T . . .
3 chr1 1911011 . C G . . .
4 chr1 2112413 . T C . . .
5 chr1 2927666 . A G . . .
6 chr1 3359791 . C T . . .
.vcf
ファイルのすべての必須列が存在します。以前にこのタイプのファイルを作成しましたが、使用readVcfAsVRanges()
したものはすべて正常に機能しました。
ただし、ここのsigneR
パッケージにはいくつかの問題があります...このミューテーションカウントマトリックスを作成しないと、エラーが発生するためです:
vcfobj <- readVcf("21_breast.vcf", "hg19")
mut <- genCountMatrixFromVcf(BSgenome.Hsapiens.UCSC.hg19, vcfobj)
Error in normalizeDoubleBracketSubscript(i, x, exact = exact, error.if.nomatch = FALSE) :
subscript is out of bounds
.vcf
そこで、「動作中」のファイルと比較して、自分のファイルの何が問題なのかを調べようとしました...
私のファイル:
vcfobj
class: CollapsedVCF
dim: 183916 0
rowRanges(vcf):
GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
DataFrame with 0 columns:
geno(vcf):
SimpleList of length 0:
「動作中」のサンプル ファイル (実際には rungenCountMatrixFromVcf()
関数の後にエラーもありますが、違います... 現時点では重要ではありません)。
example <- readVcf("example.vcf", "hg19")
example
class: CollapsedVCF
dim: 44 7
rowRanges(vcf):
GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
DataFrame with 1 column: INFO
Fields with no header: INFO
geno(vcf):
SimpleList of length 5: GT, AD, DP, GQ, PL
geno(header(vcf)):
Number Type Description
GT 1 String Genotype
AD . Integer Allelic depths for the ref and alt alleles in the order listed
DP 1 Integer Approximate read depth (reads with MQ=255 or with bad mates are filtered)
GQ 1 Integer Genotype Quality
PL G Integer Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification
あなたが見るように、dim
私はそこにある値が異なる0
ので、それが問題かもしれません。.vcf
ファイルを修正する方法を教えてください。