4

Bio.SeqIO.parse() を使用して配列データをインポートする方法について議論するとき、BioPython クックブックには次のように記載されています。

使用するアルファベットを指定するオプションの引数 alphabet があります。これは、Bio.SeqIO がデフォルトで一般的なアルファベットになる FASTA のようなファイル形式に役立ちます。

このオプションの引数を追加するにはどうすればよいですか? 次のコードがあります。

from os.path import abspath
from Bio import SeqIO

handle = open(f_path, "rU")
records = list(SeqIO.parse(handle, "fasta"))
handle.close()

これは、UniProt データベースから FASTA ファイルの大きなリストをインポートします。問題は、それが汎用の SingleLetterAlphabet クラスにあることです。SingleLetterAlphabet を ExtendedIUPACProtein に変換するにはどうすればよいですか?

最終的な目標は、これらの配列から GxxxG などのモチーフを検索することです。

4

1 に答える 1

7

このような:

# Import required alphabet
from Bio.Alphabet import IUPAC

# Pass imported alphabet as an argument for `SeqIO.parse`:
records = list(SeqIO.parse(handle, 'fasta', IUPAC.extended_protein))
于 2013-10-23T22:01:20.413 に答える