私は、いくつかの種の相同体を持つ配列と、これらの相同体のスコアを持っています。
これは、gff ファイルのレコードの例です。
4592637 Beutenbergia_cavernae_DSM_12333 TILL 70731 70780 . 0 . clst_id=429;SubjectOrganism=Thermofilum_pendens_Hrk_5;SubjectScore=0.343373493975904;SubjectOrganism=Ignicoccus_hospitalis_KIN4_I;SubjectScore=0.323293172690763;SubjectOrganism=Burkholderia_pseudomallei_MSHR346;SubjectScore=0.343373493975904;SubjectOrganism=Burkholderia_mallei_SAVP1;SubjectScore=0.343373493975904;SubjectOrganism=Enterobacter_638;SubjectScore=0.343373493975904;SubjectOrganism=Rickettsia_felis_URRWXCal2;SubjectScore=0.343373493975904;SubjectOrganism=Gemmatimonas_aurantiaca_T_27;SubjectScore=0.343373493975904;SubjectOrganism=Streptomyces_coelicolor;SubjectScore=0.363453815261044;SubjectOrganism=Beutenbergia_cavernae_DSM_12333;SubjectScore=1;SubjectOrganism=Kocuria_rhizophila_DC2201;SubjectScore=0.343373493975904;SubjectOrganism=Rhodococcus_jostii_RHA1;SubjectScore=0.383534136546185;SubjectOrganism=Symbiobacterium_thermophilum_IAM14863;SubjectScore=0.363453815261044;
==>4592637 => シーケンスの NAPP(Nucleic Acid Phylogenetic Profiling database) ID (genbank ID ではありません)
==>Beutenbergia_cavernae_DSM_12333 => シーケンスの種名
==>TILL => シーケンスのタイプ
==>70731 .. 70780 => シーケンスの開始と終了
==>clst_id=429 => は、このシーケンスのクラスターの ID です
==>SubjectOrganism => シーケンスが相同性を持つ種の名前
==>SubjectScore => この種のシーケンスのホモログのスコア ( Blastn スコア )
SubjectOrganism
シーケンス(4592637)が類似している場所からシーケンスを抽出したい。
Python を使用して、シーケンスにホモログがあるゲノムからシーケンスを抽出するにはどうすればよいですか?