1

XML 形式の Blastx 出力ファイル内で (ユーザーが指定した) キーワードを正常に検索するスクリプトを作成しました。ここで、アライメント タイトルにキーワードを含むレコード (クエリ、ヒット、スコア、evalue など) を新しいファイルに書き込む必要があります。

クエリ タイトル、ヒット タイトル、e 値、アライメントの長さごとに個別のリストを作成しましたが、それらを新しいファイルに書き込めないようです。

  • 問題 #1: Python エラーが発生し、リストの 1 つに値が欠落している場合はどうなりますか? 次に、他のすべてのリストは、クエリに関して間違った情報を提供します (「ライン スリッページ」、場合によっては...)。

  • 問題 #2: Python でエラーが発生せず、すべてのリストが同じ長さである場合でも、各リストの最初の項目が互いに関連付けられるように、それらをファイルに書き込むにはどうすればよいですか (したがって、からの項目 #10)各リストも関連付けられていますか?) 代わりに辞書を作成する必要がありますか?

  • 問題 3: 辞書にはキーの値が 1 つしかありません。クエリに複数の異なるヒットがある場合はどうなりますか? 上書きされるかスキップされるか、または単にエラーになるかどうかはわかりません。助言がありますか?私の現在のスクリプト:

    from Bio.Blast import NCBIWWW
    from Bio.Blast import NCBIXML
    import re
    
    #obtain full path to blast output file (*.xml)
    outfile = input("Full path to Blast output file (XML format only): ")
    
    #obtain string to search for
    search_string = input("String to search for: ")
    
    #open the output file
    result_handle = open(outfile)
    
    #parse the blast record
    blast_records = NCBIXML.parse(result_handle)
    
    #initialize lists
    query_list=[]
    hit_list=[]
    expect_list=[]
    length_list=[]
    
    #create 'for loop' that loops through each HIGH SCORING PAIR in each ALIGNMENT from each RECORD
    for record in blast_records:
            for alignment in record.alignments:     #for description in record.descriptions???
                    for hsp in alignment.hsps:      #for title in description.title???
    
                            #search for designated string
                            search = re.search(search_string, alignment.title)
    
                            #if search comes up with nothing, end
                            if search is None:
                                    print ("Search string not found.")
                                    break
    
                            #if search comes up with something, add it to a list of entries that match search string
                            else:
    
                                    #option to include an 'exception' (if it finds keyword then DOES NOT add that entry to list)
                                    if search is "trichomonas" or "entamoeba" or "arabidopsis":
                                            print ("found exception.")
                                            break
                                    else:
    
                                            query_list.append(record.query)
                                            hit_list.append(alignment.title)
                                            expect_list.append(expect_val)
                                            length_list.append(length)
    
                                            #explicitly convert 'variables' ['int' object or 'float'] to strings
                                            length = str(alignment.length)
                                            expect_val = str(hsp.expect)
    
                                            #print ("\nquery name: " + record.query)
                                            #print ("alignment title: " + alignment.title)
                                            #print ("alignment length: " + length)
                                            #print ("expect value: " + expect_val)
                                            #print ("\n***Alignment***\n")
                                            #print (hsp.query)
                                            #print (hsp.match)
                                            #print (hsp.sbjct + "\n\n")
    
    
                                            if query_len is not hit_len is not expect_len is not length_len:
                                                    print ("list lengths don't match!")
                                                    break
                                            else:
    
                                                    qrylen = len(query_list)
                                                    query_len = str(qrylen)
                                                    hitlen = len(hit_list)
                                                    hit_len = str(hitlen)
                                                    expectlen = len(expect_list)
                                                    expect_len = str(expectlen)
                                                    lengthlen = len(length_list)
                                                    length_len = str(lengthlen)
                                                    outpath = str(outfile)
    
                                                    #create new file
                                                    outfile = open("__Blast_Parse_Search.txt", "w")
                                                    outfile.write("File contains entries from [" + outpath + "] that contain [" + search_string + "]")
                                                    outfile.close
    
                                                    #write list to file
                                                    i = 0
                                                    list_len = int(query_len)
                                                    for i in range(0, list_len):
    
                                                            #append new file
                                                            outfile = open("__Blast_Parse_Search.txt", "a")
                                                            outfile.writelines(query_list + hit_list + expect_list + length_list)
                                                            i = i + 1
    
                                                    #write to disk, close file
                                                    outfile.flush()
                                                    outfile.close
    
    print ("query list length " + query_len)
    print ("hit list length " + hit_len)
    print ("expect list length " + expect_len)
    print ("length list length " + length_len + "\n\n")
    print ("first record: " + query_list[0] + " " + hit_list[0] + " " + expect_list[0] + " " + length_list[0])
    print ("last record: " + query_list[-1] + " " + hit_list[-1] + " " + expect_list[-1] + " " + length_list[-1])
    print ("\nFinished.\n")
    
4

1 に答える 1

0

私があなたの問題を正しく理解しているなら、あなたは次のようなラインスリッページのデフォルト値を使うことができます:

try:
  x(list)
except exception:
  append_default_value(list)

http://docs.python.org/tutorial/errors.html#handling-exceptions

または、のような辞書キーにタプルを(0,1,1)使用し、デフォルト値にgetメソッドを使用します。

http://docs.python.org/py3k/library/stdtypes.html#mapping-types-dict

出力ファイルのデータ構造を維持する必要がある場合は、shelveを使用してみてください。

または、各レコードの後に​​ある種の参照を追加して、各レコードに一意のIDを指定することもできます(例:' #32{somekey:value}#21#22#44#')

ここでも、タプルを使用して複数のキーを持つことができます。

それが役立つかどうかはわかりませんが、コードのどの部分で問題が発生しているかを正確に明らかにすることができます。Likex()は私に出力を与えますyが、私は期待していzます。

于 2012-08-22T21:52:09.327 に答える