0

私は、いくつかの種の相同体を持つ配列と、これらの相同体のスコアを持っています。

これは、gff ファイルのレコードの例です。

4592637 Beutenbergia_cavernae_DSM_12333 TILL    70731   70780   .   0   .   clst_id=429;SubjectOrganism=Thermofilum_pendens_Hrk_5;SubjectScore=0.343373493975904;SubjectOrganism=Ignicoccus_hospitalis_KIN4_I;SubjectScore=0.323293172690763;SubjectOrganism=Burkholderia_pseudomallei_MSHR346;SubjectScore=0.343373493975904;SubjectOrganism=Burkholderia_mallei_SAVP1;SubjectScore=0.343373493975904;SubjectOrganism=Enterobacter_638;SubjectScore=0.343373493975904;SubjectOrganism=Rickettsia_felis_URRWXCal2;SubjectScore=0.343373493975904;SubjectOrganism=Gemmatimonas_aurantiaca_T_27;SubjectScore=0.343373493975904;SubjectOrganism=Streptomyces_coelicolor;SubjectScore=0.363453815261044;SubjectOrganism=Beutenbergia_cavernae_DSM_12333;SubjectScore=1;SubjectOrganism=Kocuria_rhizophila_DC2201;SubjectScore=0.343373493975904;SubjectOrganism=Rhodococcus_jostii_RHA1;SubjectScore=0.383534136546185;SubjectOrganism=Symbiobacterium_thermophilum_IAM14863;SubjectScore=0.363453815261044;

==>4592637 => シーケンスの NAPP(Nucleic Acid Phylogenetic Profiling database) ID (genbank ID ではありません)

==>Beutenbergia_cavernae_DSM_12333 => シーケンスの種名

==>TILL => シーケンスのタイプ

==>70731 .. 70780 => シーケンスの開始と終了

==>clst_id=429 => は、このシーケンスのクラスターの ID です

==>SubjectOrganism => シーケンスが相同性を持つ種の名前

==>SubjectScore => この種のシーケンスのホモログのスコア ( Blastn スコア )

SubjectOrganismシーケンス(4592637)が類似している場所からシーケンスを抽出したい。

Python を使用して、シーケンスにホモログがあるゲノムからシーケンスを抽出するにはどうすればよいですか?

4

2 に答える 2

0

そのシーケンスを文字列として取得し、必要に応じてスライスすることができます。例えば:

>>> s="abcdefghij"
>>> len(s)
10
>>> s[5:10]
'fghij'
>>>

s完全な文字列と考えて5:1070731:70780. それが役立つことを願っています!

于 2014-07-09T17:19:20.220 に答える
0

他の質問から、あなたはすでにこれを理解していると思います。この場合、StackOverflow は、あなた自身の質問に答えて投稿し、それらを受け入れることをお勧めします! ともかく:

まず、クエリ シーケンスを取得idし、 を有機体の ID に置き換えます。「Beutenbergia cavernae DSM 12333」で NCBI を照会していることがわかりました。

from Bio import Entrez
seq = Entrez.efetch(db="nuccore",
                    id="229564415",
                    rettype="fasta",
                    seq_start=70731,
                    seq_stop=70780).readlines()

seqのようなものが含まれています

['>gb|CP001618.1|:70731-70780 Beutenbergia cavernae DSM 12333,'
 'complete genome\n',
 'GCCCGAGTTCCCCGAACCGTGCCGAGGTAGTACTCCACGGGCGAGGGAGT\n',
 '\n']

他の質問に示されているように、次のシーケンスを使用して qblast を起動しますが、ハードコードさentrez_queryれた文字列を GFF ファイルの文字列に置き換えます。

from Bio.Blast.NCBIWWW import qblast
results = qblast("blastn",
                 "nr",
                 "".join(seq),
                 entrez_query='Thermofilum_pendens_Hrk_5')

何千ものクエリで、NCBI は確実にあなたをキューから締め出しているので、注意してください。

于 2014-07-14T09:58:33.447 に答える