3

座標がわかっている場合、ゲノムブラウザー(UCSC)からPerlスクリプトを使用してDNAシーケンスを抽出するにはどうすればよいですか?

4

1 に答える 1

6

DAS シーケンス要求を、シーケンスを含む XML 要素を解析する Perl スクリプトにパイプできます。

たとえば、以下はcurlUCSC の DAS サーバーの要求で、標準エラーを破棄し、 にパイプされparseSeq.plます。

$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl

の出力は、ヒトゲノムcurlのアセンブリからの 1000 塩基の DNA 配列を含む XML ドキュメントになります。このリクエストは、最初の染色体からhg1910000 から 10999 までのベース (UCSC は0 ベースであることを思い出してください) を要求します。XML には、ロギングやエラー チェックに役立つその他の要素が含まれます。

XML を Perl スクリプトにパイプした後、Perl のXML::Simpleモジュールを使用して、必要なものをすばやく解析できます。

開始しやすいように、parseSeq.plファイルは次のように始まる場合があります。

#!/usr/bin/perl -w                                                                                                                                                                                                                          

use strict;                                                                                                                                                                                                                                 
use XML::Simple;                                                                                                                                                                                                                            
use Data::Dumper;                                                                                                                                                                                                                           

my $xml = new XML::Simple;                                                                                                                                                                                                                  
my $ref = $xml->XMLin('-');                                                                                                                                                                                                                       

print Dumper $ref;

これの出力は、から DNA シーケンスをプルするのに十分な開始を与えるはずです$ref

于 2010-04-29T09:19:50.297 に答える