perl - 座標がわかっている場合、UCSCからPerlスクリプトを使用してDNAシーケンスを抽出するにはどうすればよいですか？

Question

座標がわかっている場合、ゲノムブラウザー（UCSC）からPerlスクリプトを使用してDNAシーケンスを抽出するにはどうすればよいですか？

score 6 · Accepted Answer

DAS シーケンス要求を、シーケンスを含む XML 要素を解析する Perl スクリプトにパイプできます。

たとえば、以下はcurlUCSC の DAS サーバーの要求で、標準エラーを破棄し、にパイプされparseSeq.plます。

$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl

の出力は、ヒトゲノムcurlのアセンブリからの 1000 塩基の DNA 配列を含む XML ドキュメントになります。このリクエストは、最初の染色体からhg1910000 から 10999 までのベース (UCSC は0 ベースであることを思い出してください) を要求します。XML には、ロギングやエラーチェックに役立つその他の要素が含まれます。

XML を Perl スクリプトにパイプした後、Perl のXML::Simpleモジュールを使用して、必要なものをすばやく解析できます。

開始しやすいように、parseSeq.plファイルは次のように始まる場合があります。

#!/usr/bin/perl -w                                                                                                                                                                                                                          

use strict;                                                                                                                                                                                                                                 
use XML::Simple;                                                                                                                                                                                                                            
use Data::Dumper;                                                                                                                                                                                                                           

my $xml = new XML::Simple;                                                                                                                                                                                                                  
my $ref = $xml->XMLin('-');                                                                                                                                                                                                                       

print Dumper $ref;

これの出力は、から DNA シーケンスをプルするのに十分な開始を与えるはずです$ref。

perl - 座標がわかっている場合、UCSCからPerlスクリプトを使用してDNAシーケンスを抽出するにはどうすればよいですか？

1 に答える 1

Related

Reference