Biopython のEntrez.fetch()
関数を使用して、遺伝子 ID (GI) 番号を介して NCBI からタンパク質配列を取得しようとしています。
proteina = Entrez.efetch(db="protein", id= gi, rettype="gb", retmode="xml").
次に、次を使用してデータを読み取ります。
proteinaXML = Entrez.read(proteina).
結果を印刷できますが、タンパク質配列だけを取得する方法がわかりません。
結果が表示されたら、手動でタンパク質に到達できます。または、II を使用して XML ツリーを確認します。
proteinaXML[0]["GBSeq_feature-table"][2]["GBFeature_quals"][6]['GBQualifier_value'].
ただし、提出されたタンパク質の GI によっては、XML ツリーが異なる場合があります。このプロセスを確実に自動化することが難しくなります。
私の質問: XML ツリー全体ではなく、タンパク質配列のみを取得することは可能ですか? あるいは、XML ファイルの構造がタンパク質ごとに異なる可能性があることを考えると、XML ファイルからタンパク質配列を抽出するにはどうすればよいでしょうか?
ありがとう