次のような FASTA ファイルを手動でダウンロードできます。
>lcl|CR543861.1_gene_1...
ATGCTTTGGACA...
>lcl|CR543861.1_gene_2...
GTGCGACTAAAA...
「Send to」をクリックして「Gene Features」を選択すると、このページで FASTA Nucleotide が唯一のオプションになります (これで十分です) 。
次のようなスクリプトを使用します。
#!/usr/bin/env perl
use strict;
use warnings;
use Bio::DB::EUtilities;
my $factory = Bio::DB::EUtilities->new(-eutil => 'efetch',
-db => 'nucleotide',
-id => 'CR543861',
-rettype => 'fasta');
my $file = 'CR543861.fasta';
$factory->get_Response(-file => $file);
次のようなファイルを取得します。
>gi|49529273|emb|CR543861.1| Acinetobacter sp. ADP1 complete genome
GATATTTTATCCACA...
ゲノム配列全体がひとまとめにされています。最初の (手動でダウンロードした) ファイルのような情報を取得するにはどうすればよいですか?
私は他のいくつかの投稿を見ました:
- biopython entrez.esearch で完全なゲノム配列をダウンロードする方法(この回答は関連があるようです)
- アクセッション番号だけで GenBank ファイル全体をダウンロードするにはどうすればよいですか?
EUtilities Cookbook のこのセクションと同様に。
GenBank ファイルを取得して保存しようとしましたが (取得した .gb ファイル内の遺伝子ごとに個別の配列があるように見えるため)、Bio::SeqIO を使用して作業すると、大きな配列が 1 つしか取得されません。