座標がわかっている場合、ゲノムブラウザー(UCSC)からPerlスクリプトを使用してDNAシーケンスを抽出するにはどうすればよいですか?
1749 次
1 に答える
6
DAS シーケンス要求を、シーケンスを含む XML 要素を解析する Perl スクリプトにパイプできます。
たとえば、以下はcurl
UCSC の DAS サーバーの要求で、標準エラーを破棄し、 にパイプされparseSeq.pl
ます。
$ curl http://genome.ucsc.edu/cgi-bin/das/hg19/dna?segment=1:10000,10999 2>/dev/null | parseSeq.pl
の出力は、ヒトゲノムcurl
のアセンブリからの 1000 塩基の DNA 配列を含む XML ドキュメントになります。このリクエストは、最初の染色体からhg19
10000 から 10999 までのベース (UCSC は0 ベースであることを思い出してください) を要求します。XML には、ロギングやエラー チェックに役立つその他の要素が含まれます。
XML を Perl スクリプトにパイプした後、Perl のXML::Simpleモジュールを使用して、必要なものをすばやく解析できます。
開始しやすいように、parseSeq.pl
ファイルは次のように始まる場合があります。
#!/usr/bin/perl -w
use strict;
use XML::Simple;
use Data::Dumper;
my $xml = new XML::Simple;
my $ref = $xml->XMLin('-');
print Dumper $ref;
これの出力は、から DNA シーケンスをプルするのに十分な開始を与えるはずです$ref
。
于 2010-04-29T09:19:50.297 に答える