Bio.SeqIO.parse() を使用して配列データをインポートする方法について議論するとき、BioPython クックブックには次のように記載されています。
使用するアルファベットを指定するオプションの引数 alphabet があります。これは、Bio.SeqIO がデフォルトで一般的なアルファベットになる FASTA のようなファイル形式に役立ちます。
このオプションの引数を追加するにはどうすればよいですか? 次のコードがあります。
from os.path import abspath
from Bio import SeqIO
handle = open(f_path, "rU")
records = list(SeqIO.parse(handle, "fasta"))
handle.close()
これは、UniProt データベースから FASTA ファイルの大きなリストをインポートします。問題は、それが汎用の SingleLetterAlphabet クラスにあることです。SingleLetterAlphabet を ExtendedIUPACProtein に変換するにはどうすればよいですか?
最終的な目標は、これらの配列から GxxxG などのモチーフを検索することです。