biopython - NCBIWWW を使用した BlastP からの出力が期待どおりではない

Question

NCBIWWW を使用して、特定のタンパク質の blastP 結果を取得しようとしています。問題は、送り返されるのは、アライメントデータとして認識されるものではなく、これが返されることです (これは、ソースコードの 'Blast_record' の内容です)。「BioPython チュートリアルとクックブック」から取得したコードを使用しています。それとインターネットでエラーの原因を探しましたが、見つかりません。私のソースコードはこれです;

# biopython
from Bio import SeqIO
from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML

# first get the sequence we want to parse from a FASTA file
# f_record = next(SeqIO.parse('m_cold.fasta', 'fasta'))

print('Doing the BLAST and retrieving the results...')
result_handle = NCBIWWW.qblast('blastp', 'tsa', '365176198')

# save the results for later, in case we want to look at it
save_file = open('m_cold_blast.out', 'w')
blast_results = result_handle.read()
save_file.write(blast_results)
save_file.close()

結果のファイルは次のとおりです。

<?xml version="1.0"?>
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput>
<BlastOutput_program>blastp</BlastOutput_program>
<BlastOutput_version>BLASTP 2.2.31+</BlastOutput_version>
<BlastOutput_reference>Stephen F. Altschul, Thomas L. Madden, Alejandro A. Sch&amp;auml;ffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), &quot;Gapped BLAST and PSI-BLAST: a new generation of protein database search programs&quot;, Nucleic Acids Res. 25:3389-3402.</BlastOutput_reference>
<BlastOutput_db>tsa</BlastOutput_db>
<BlastOutput_query-ID>gi|365176198|gb|AEW67975.1|</BlastOutput_query-ID>
<BlastOutput_query-def>polyprotein [Black queen cell virus]    </BlastOutput_query-def>
<BlastOutput_query-len>171</BlastOutput_query-len>
<BlastOutput_param>
<Parameters>
  <Parameters_matrix>BLOSUM62</Parameters_matrix>
  <Parameters_expect>10</Parameters_expect>
  <Parameters_gap-open>11</Parameters_gap-open>
  <Parameters_gap-extend>1</Parameters_gap-extend>
  <Parameters_filter>F</Parameters_filter>
</Parameters>
</BlastOutput_param>
<BlastOutput_iterations>
<Iteration>
<Iteration_iter-num>1</Iteration_iter-num>
<Iteration_query-ID>gi|365176198|gb|AEW67975.1|</Iteration_query-ID>
<Iteration_query-def>polyprotein [Black queen cell virus]</Iteration_query-def>
<Iteration_query-len>171</Iteration_query-len>
<Iteration_hits>
</Iteration_hits>
<Iteration_stat>
<Statistics>
  <Statistics_db-num>0</Statistics_db-num>
  <Statistics_db-len>0</Statistics_db-len>
  <Statistics_hsp-len>0</Statistics_hsp-len>
  <Statistics_eff-space>0</Statistics_eff-space>
  <Statistics_kappa>-1</Statistics_kappa>
  <Statistics_lambda>-1</Statistics_lambda>
  <Statistics_entropy>-1</Statistics_entropy>
</Statistics>
</Iteration_stat>
</Iteration>
</BlastOutput_iterations>
</BlastOutput>

ここで、BlastN と上記で使用したタンパク質のヌクレオチド配列を使用して検索を実行すると、一致するすべての配列、それらの E 値、およびスコアなどが得られます。

私はPythonとBiopythonの両方に非常に慣れていません。私の人生では、何が間違っているのかわかりません。

score 1 · Accepted Answer

QUERY 365176198はタンパク質です

データベースはヌクレオティクスです

Transcriptome Shotgun Assembly (TSA) データベースとは何ですか?

TSA は、EST、トレース、次世代シーケンシング技術などの一次データから計算によって組み立てられた配列のアーカイブです。完全なトランスクリプトームからの重複配列読み取りは、従来のクローニングおよびクローン化されたcDNAのシーケンシングではなく、計算方法によって転写物に組み立てられます。

BLAST検索でTSA配列は入手できますか？

Transcriptome Shotgun Assembly (TSA) BLAST データベースが利用可能になりました。シーケンスは当初 nt に含まれていましたが、現在は別のデータベースに分離されています。ＴＳＡデータベースは、ヌクレオチド、ｔｂｌａｓｔｎ、およびｔｂｌａｓｔｘリンクのＢａｓｉｃＢＬＡＳＴの下にあるＢＬＡＳＴホームページから入手可能である。これらのシーケンスは nt では使用できません。

ブラストフレーバー

ブラスト：
     アミノ酸クエリ配列をタンパク質配列と比較します
     データベース

blastn: ヌクレオチド クエリ シーケンスをヌクレオチドと比較します
     配列データベース

blastx: すべてで翻訳されたヌクレオチド クエリ シーケンスを比較します。
     タンパク質配列データベースに対する読み取りフレーム

tblastn: タンパク質クエリ配列をヌクレオチドと比較します
     すべての読み枠で動的に翻訳された配列データベース

tblastx: ヌクレオチド クエリの 6 フレームの翻訳を比較します
     ヌクレオチドの6フレーム翻訳に対する配列
     配列データベース。tblastx プログラムを実行できないことに注意してください。
     BLAST Web ページの nr データベースで使用されます。

手動で回答

ブラストを手動で入力する

ブラストを手動で出力する

バイオパイソンの答え

「tsa」の代わりに「tsa_nt」を使用し、「blastp」の代わりに「tblastn」を使用する必要があります。

query = '365176198'
#note: this may take several minutes
result_handle = NCBIWWW.qblast('tblastn', 'tsa_nt', query, format_type="Text")

あなたが得る：

.......

                                                                   スコア E
重要なアラインメントを生成するシーケンス: (ビット) 値

gb|GAZV01037943.1| Apis mellifera comp13466_c0_seq1 転写... 342 4e-105
gb|GAZF01116856.1| Essigella californica C629542転写 ... 179 1e-54
gb|GBYB01008381.1| Fopius arisanus c20283_g1_i1 転写 R... 149 2e-37
gb|GAUO01000423.1| Velia caprai s423_L_1942_0 転写された RNA... 58.9 3e-07
gb|GAXG01028220.1| Gynaikothrips ficorum s28263_L_292921_0 tr... 57.0 9e-07
gb|GAWP01023404.1| Grylloblatta bifratrilecta s23438_L_295244... 52.8 4e-05
gb|GAWZ01143177.1| グリロタルパ sp. AD-2013 C589197 転記... 45.4 0.002
gb|GAXW01013938.1| ユーロレオン ノストラ s13984_L_116369_0 転写... 45.8 0.006
gb|GAXC01050700.1| アザミウマ C235436 転写 RNA 配列 42.0 0.017
gb|GAXH01037906.1| Parides eurimedes C235744 転写された RNA ... 40.4 0.069
gb|GBES01007135.1| Dichelops melacanthus Locus_17334_Transcri... 39.7 0.18  
gb|GBXI01014067.1| Bactrocera cucurbitae c16593_g1_i1 トランスクリ... 40.4 0.49  
gb|GAMC01001920.1| Ceratitis capitata comp55379_c0_seq1 mRNA ... 40.4 0.49  
gb|GARL01030594.1| Spodoptera exigua SEUC25635_TC01 転写... 39.7 0.88  
gb|GAZS01034153.1| Acanthoscurria geniculata L2169_T1/2_Turan... 38.5 2.1   
gb|GAZS01034154.1| Acanthoscurria geniculata L2170_T2/2_Turan... 38.5 2.1   
gb|GAYD01030921.1| Blaberus atropos s30958_L_499964_0 転写... 38.5 2.2   
gb|GAZR01021123.1| Stegodyphus mimosarum L19863_T1/1_Velvet_W... 36.2 3.0   
gb|GBCX01022664.1| Dastarcus helophoroides Unigene14575 トランス... 37.7 3.8   
gb|GAYF01148415.1| Nilaparvata lugens C730037 転写 RNA... 37.7 4.5   
gb|GAMK01054259.1| インゲンマメ Ref_259_comp8866_c0_seq... 37.0 8.5   
gb|EZ343106.1| Artemisia annua 株 ウガンダ Contig10322.Uhm ... 35.8 8.9   

アラインメント
>gb|GAZV01037943.1| TSA: Apis mellifera comp13466_c0_seq1 転写 RNA 配列
長さ=6998

 スコア = 342 ビット (878)、期待値 = 4e-105、方法: 構成マトリックス調整。
 アイデンティティ = 164/168 (98%)、ポジティブ = 167/168 (99%)、ギャップ = 0/168 (0%)
 フレーム = +2

クエリ 4 YALYRGGVRVKVVTGRGVDFVRATVSPQQTYGSEVAPTTHISTPLAIEQIPIKGVAEFQI 63
             YALYRGGVRVKVVT +GVDFVRATVSPQQTYGS+VAPTTHISTPLAIEQIPIKGVAEFQI
Sbjct 6317 YALYRGGVRVKVVTEKGVDFVRATVSPQQTYGSDVAPTTHISTPLAIEQIPIKGVAEFQI 6496

クエリ 64 PYYAPCLSSSFRANSETFYYSSGRNNLDIATPPPSINRYYAVGAGDDMDFSIFIGTPPCI 123
             PYYAPCLSSSFRANSETFYYSSGRNNLDI+TSPPSINRYYAVGAGDDMDFSIFIGTPPCI
Sbjct 6497 PYYAPCLSSSFRANSETFYYSSGRNNLDISTSPPINRYYAVGAGDDMDFSIFIGTPPCI 6676

.......

score 0 · Accepted Answer

出力ファイルが「.out」で終わっていることに気付きました。XML ファイルに保存してみてください。適切な列にマップされます。出力ファイルの最初の行に、「?xml. qBLAST 関数はデフォルトで XML を使用し、「テキスト」にもオプションの引数がありますが、フォーマットは悪夢です。

blastp と tsa が異なるデータベースであることも事実です。qblast モジュールには、さまざまな引数に役立つ組み込みのヘルプがいくつかあり、これでアクセスできます。

>>> from Bio.Blast import NCBIWWW
>>> help(NCBIWWW.qblast)

(私はあなたのコードを実行しますが、qBLAST はこの記事の執筆時点で問題を抱えています)

biopython - NCBIWWW を使用した BlastP からの出力が期待どおりではない

2 に答える 2

Related

Reference