python - 座標によってヒトゲノム配列を取得する高速な方法

Question

大量のヒトゲノム断片 (5 億以上) をランダムに取得したい。

これは、プロセス全体の部分的な作業です。ボウタイからの .sam 結果ファイルがあり、1,000 万のヒトゲノム読み取りアライメントが含まれています。各クエリの読み取りを、sam ファイルからの「整列先の参照シーケンス」と比較したいと考えています。私が使用した参照配列は、UCSC の hg19.fa です。そのため、sam ファイル内の場所を使用して、hg19.fa (または染色体ファイル) から配列を取得できる必要があります。

たとえば、chr4:35654-35695 を指定すると、42bp シーケンスを取得できます。

gtcttccagggtttttatattttttgggtttacacttaagt

これまでのところ、2 つの解決策がありました。1. UCSC DAS サーバーからシーケンスを取得するための python スクリプト: http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=chr4:35654,35695

Pythonスクリプトを使用して「samtools faidx」コマンドを呼び出し、投稿からcommnad出力を返します： http://seqanswers.com/forums/showthread.php?t=23606&highlight=fetch+genome+coordinate

しかし、彼らは遅いです。samtools faidx は、DAS サーバーから取得するよりも少し高速ですが、それでも遅いです。

それで、これを行うためのFAST方法はありますか？私は別の染色体 fasta ファイルと hg19.fa ファイルを持っています。

score 2 · Accepted Answer

http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/でucsc twoBitToFa を使用します。

http://genome.ucsc.edu/goldenPath/help/twoBit.htmlも参照してください。

python - 座標によってヒトゲノム配列を取得する高速な方法

2 に答える 2

Related

Reference