python - GenBankフラットファイルをFASTAに変換する

Question

予備のGenBankフラットファイルを解析する必要があります。シーケンスはまだ公開されていないので、アクセッションで調べてFASTAファイルをダウンロードすることはできません。私はバイオインフォマティクスに不慣れなので、誰かがこれを自分で行うためのBioPerlまたはBioPythonスクリプトを見つけることができる場所を教えてもらえますか？ありがとう！

score 0 · Accepted Answer

バイオインフォマティクスデータを読み書きするには、 Bio::SeqIOモジュールが必要です。SeqIO HOWTOはあなたが知る必要のあるすべてを教えてくれるはずですが、ここにあなたが始めるためのPerlの小さなRead-a-GenBank-fileスクリプトがあります！

score 0 · Accepted Answer

私はここにあなたのためのBiopythonソリューションを持っています。最初にあなたのgenbankファイルがゲノム配列に関連していると仮定し、次にそれが代わりに遺伝子配列であると仮定して別の解決策を提供します。確かに、あなたがこれらのどれを扱っているかを知っていることは役に立ちました。

ゲノム配列解析：

次の方法でファイルからカスタムgenbankフラットファイルを解析します。

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

生のシーケンスが必要な場合は、次のようにします。

rawSequence = record.seq.tostring()

ここで、.fastaを作成する前にシーケンスに「ヘッダー」を付けるために、このシーケンスの名前が必要になる場合があります。genbank.gbファイルにどのような名前が付いているか見てみましょう。

nameSequence = record.features[0].qualifiers

これにより、そのgenbankファイルの作成者によって注釈が付けられたシーケンス全体のさまざまな同義語を含む辞書が返されます。

遺伝子配列解析：

次の方法でファイルからカスタムgenbankフラットファイルを解析します。

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

遺伝子の生の配列のリスト/すべての遺伝子のリストを取得するには、次のようにします。

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

各遺伝子配列の名前のリストを取得するには（より正確には、各遺伝子の同義語の辞書）

nameSequenceList = [gene.qualifiers for gene in record.features]

python - GenBankフラットファイルをFASTAに変換する

2 に答える 2

Related

Reference