python-2.7 - バッチで対応する Ensembl Gene ID を介して EMBL-Bank ID を取得します

Question

Gene Expression Atlasから検索した結果、約5000個の遺伝子のリストが得られました。結果ページから、すべての結果をファイルにダウンロードできます。そのファイルには、各遺伝子の遺伝子識別子 (Ensembl Gene ID) が含まれています。だから今、各 Ensembl Gene ID に対応する EMBL-Bank ID が必要なので、 Dbfetchからヌクレオチド配列をバッチでダウンロードできます。どうすればそれを達成できるか知っている人はいますか? それを達成するためにbiopythonを使用できますか？

score 0 · Accepted Answer

ダウンロードできるファイルは、カスタムのタブ区切り形式です (Biopython のパーサーはどれも処理できません)。

代わりに、csvモジュールを使用して、必要なものを抽出できます。

import csv


with open("listd1.tab") as tab_file:
    data_lines = (line for line in csv_file if not line.startswith("#"))
    csv_data = csv.reader(data_lines, delimiter="\t")
    header = csv_data.next()  # ['Gene name', 'Gene identifier', ...]
    gene_id_index = header.find("Gene identifier")

    for line in csv_data:
        gene_id = line[gene_id_index]  # Do whatever you'd like with this

python-2.7 - バッチで対応する Ensembl Gene ID を介して EMBL-Bank ID を取得します

1 に答える 1

Related

Reference