python - 配列を持つ相同体に基づいてゲノムから配列を抽出するにはどうすればよいですか?

Question

私は、いくつかの種の相同体を持つ配列と、これらの相同体のスコアを持っています。

これは、gff ファイルのレコードの例です。

4592637 Beutenbergia_cavernae_DSM_12333 TILL    70731   70780   .   0   .   clst_id=429;SubjectOrganism=Thermofilum_pendens_Hrk_5;SubjectScore=0.343373493975904;SubjectOrganism=Ignicoccus_hospitalis_KIN4_I;SubjectScore=0.323293172690763;SubjectOrganism=Burkholderia_pseudomallei_MSHR346;SubjectScore=0.343373493975904;SubjectOrganism=Burkholderia_mallei_SAVP1;SubjectScore=0.343373493975904;SubjectOrganism=Enterobacter_638;SubjectScore=0.343373493975904;SubjectOrganism=Rickettsia_felis_URRWXCal2;SubjectScore=0.343373493975904;SubjectOrganism=Gemmatimonas_aurantiaca_T_27;SubjectScore=0.343373493975904;SubjectOrganism=Streptomyces_coelicolor;SubjectScore=0.363453815261044;SubjectOrganism=Beutenbergia_cavernae_DSM_12333;SubjectScore=1;SubjectOrganism=Kocuria_rhizophila_DC2201;SubjectScore=0.343373493975904;SubjectOrganism=Rhodococcus_jostii_RHA1;SubjectScore=0.383534136546185;SubjectOrganism=Symbiobacterium_thermophilum_IAM14863;SubjectScore=0.363453815261044;

==>4592637 => シーケンスの NAPP(Nucleic Acid Phylogenetic Profiling database) ID (genbank ID ではありません)

==>Beutenbergia_cavernae_DSM_12333 => シーケンスの種名

==>TILL => シーケンスのタイプ

==>70731 .. 70780 => シーケンスの開始と終了

==>clst_id=429 => は、このシーケンスのクラスターの ID です

==>SubjectOrganism => シーケンスが相同性を持つ種の名前

==>SubjectScore => この種のシーケンスのホモログのスコア ( Blastn スコア )

SubjectOrganismシーケンス（4592637）が類似している場所からシーケンスを抽出したい。

Python を使用して、シーケンスにホモログがあるゲノムからシーケンスを抽出するにはどうすればよいですか?

score 0 · Accepted Answer

そのシーケンスを文字列として取得し、必要に応じてスライスすることができます。例えば：

>>> s="abcdefghij"
>>> len(s)
10
>>> s[5:10]
'fghij'
>>>

s完全な文字列と考えて5:10、70731:70780. それが役立つことを願っています!

score 0 · Accepted Answer

他の質問から、あなたはすでにこれを理解していると思います。この場合、StackOverflow は、あなた自身の質問に答えて投稿し、それらを受け入れることをお勧めします! ともかく：

まず、クエリシーケンスを取得idし、を有機体の ID に置き換えます。「Beutenbergia cavernae DSM 12333」で NCBI を照会していることがわかりました。

from Bio import Entrez
seq = Entrez.efetch(db="nuccore",
                    id="229564415",
                    rettype="fasta",
                    seq_start=70731,
                    seq_stop=70780).readlines()

今seqのようなものが含まれています

['>gb|CP001618.1|:70731-70780 Beutenbergia cavernae DSM 12333,'
 'complete genome\n',
 'GCCCGAGTTCCCCGAACCGTGCCGAGGTAGTACTCCACGGGCGAGGGAGT\n',
 '\n']

他の質問に示されているように、次のシーケンスを使用して qblast を起動しますが、ハードコードさentrez_queryれた文字列を GFF ファイルの文字列に置き換えます。

from Bio.Blast.NCBIWWW import qblast
results = qblast("blastn",
                 "nr",
                 "".join(seq),
                 entrez_query='Thermofilum_pendens_Hrk_5')

何千ものクエリで、NCBI は確実にあなたをキューから締め出しているので、注意してください。

python - 配列を持つ相同体に基づいてゲノムから配列を抽出するにはどうすればよいですか?

2 に答える 2

Related

Reference