python - GenBank レコードのシーケンスを変更するには?

Question

私がやりたいことは、GenBank レコードのすべての非推定シーケンスをゲノムファイルで小文字にすることです。

これまでのところ、gbk 内のタンパク質の開始位置と終了位置を取得することができました。そこから、次のことを行います。

start = feature.location.nofuzzy_start
end = feature.location.nofuzzy_end
gb_record.seq[start:end]

これで、ゲノム内の配列の開始位置と終了位置がわかりました。しかし、ゲノムファイルをどのように変更すればよいのでしょうか? gb_record.seq[start:end].lower()または同様の何かがうまくいきませんでした。

を割り当てるgb_record.seq = gb_record.seq[start:end].lowerと、ゲノムファイルを置き換えるので、明らかにうまくいきません。何か案は？

score 1 · Accepted Answer

Bio.Seq.Seqオブジェクトには、lower()探していることを実行するメソッドがあります。

コードを処理すると、次のようになります。

seq_lower = gb_record.seq.lower()

SeqIOその後、モジュールを使用して小文字のシーケンスをファイルに書き出すことができるはずです。

from Bio import SeqIO

with open("example.fasta", 'w') as handle:
    SeqIO.write(lower_records, handle, 'fasta')

1 に答える 1