Gene Expression Atlasから検索した結果、約5000個の遺伝子のリストが得られました。結果ページから、すべての結果をファイルにダウンロードできます。そのファイルには、各遺伝子の遺伝子識別子 (Ensembl Gene ID) が含まれています。だから今、各 Ensembl Gene ID に対応する EMBL-Bank ID が必要なので、 Dbfetchからヌクレオチド配列をバッチでダウンロードできます。どうすればそれを達成できるか知っている人はいますか? それを達成するためにbiopythonを使用できますか?
質問する
189 次
1 に答える
0
ダウンロードできるファイルは、カスタムのタブ区切り形式です (Biopython のパーサーはどれも処理できません)。
代わりに、csv
モジュールを使用して、必要なものを抽出できます。
import csv
with open("listd1.tab") as tab_file:
data_lines = (line for line in csv_file if not line.startswith("#"))
csv_data = csv.reader(data_lines, delimiter="\t")
header = csv_data.next() # ['Gene name', 'Gene identifier', ...]
gene_id_index = header.find("Gene identifier")
for line in csv_data:
gene_id = line[gene_id_index] # Do whatever you'd like with this
于 2013-06-17T15:12:45.490 に答える