大量のヒトゲノム断片 (5 億以上) をランダムに取得したい。
これは、プロセス全体の部分的な作業です。ボウタイからの .sam 結果ファイルがあり、1,000 万のヒトゲノム読み取りアライメントが含まれています。各クエリの読み取りを、sam ファイルからの「整列先の参照シーケンス」と比較したいと考えています。私が使用した参照配列は、UCSC の hg19.fa です。そのため、sam ファイル内の場所を使用して、hg19.fa (または染色体ファイル) から配列を取得できる必要があります。
たとえば、chr4:35654-35695 を指定すると、42bp シーケンスを取得できます。
gtcttccagggtttttatattttttgggtttacacttaagt
これまでのところ、2 つの解決策がありました。1. UCSC DAS サーバーからシーケンスを取得するための python スクリプト: http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr4:35654,35695
- Pythonスクリプトを使用して「samtools faidx」コマンドを呼び出し、投稿からcommnad出力を返します: http://seqanswers.com/forums/showthread.php?t=23606&highlight=fetch+genome+coordinate
しかし、彼らは遅いです。samtools faidx は、DAS サーバーから取得するよりも少し高速ですが、それでも遅いです。
それで、これを行うためのFAST方法はありますか?私は別の染色体 fasta ファイルと hg19.fa ファイルを持っています。