4

1000 ゲノム プロジェクトは、人間の参照 DNA 配列に対する数千人の DNA 配列の「バリエーション」に関する情報を提供します。バリエーションはVCFファイル
形式で保存されます。基本的に、そのプロジェクトの各人物について、VCF ファイルから DNA 変異情報を取得できます。たとえば、変異のタイプ (挿入/削除や SNP など) や参照に対する変異の位置などです。参照は FASTA 形式です。VCF ファイルからの 1 人のバリエーション情報と FASTA ファイル内の人間のリファレンスを組み合わせて、その人物の DNA 配列を構築したいと考えています。

私の質問は、タスクをうまく実行できるツールがすでに存在するか、それとも自分でスクリプトを作成する必要があるかということです。

4

3 に答える 3

3

VCFtoolsの perl スクリプトvcf-consensusは、探しているものに近いようです。

vcf-consensus  
Apply VCF variants to a fasta file to create consensus sequence.

Usage: cat ref.fa | vcf-consensus [OPTIONS] in.vcf.gz > out.fa
Options:
   -h, -?, --help         This help message.
   -H, --haplotype <int>  Apply only variants for the given haplotype (1,2)
   -s, --sample <name>    If not given, all variants are applied
Examples:
   samtools faidx ref.fa 8:11870-11890 | vcf-consensus in.vcf.gz > out.fa


質問への答えは、ファスタとバリアントコールファイルの参照からの新しいファスタシーケンスですか? バイオスターに投稿されたものも役立つかもしれません。

于 2013-09-27T00:23:50.203 に答える