0

BLAST検索からの出力を次の形式で含むExcelのcsvファイルがあります。

# BLASTN 2.2.29+                                            
# Query: Cryptocephalus androgyne                                           
# Database: SANdouble                                           
# Fields: query id   subject id  % identity  alignment length    mismatches  gap opens   q. start    q. end  s. start    s. end  evalue  bit score
# 1 hits found                                          
Cryptocephalus  ctg7180000094003    79.59   637 110 9   38  655 1300    1935    1.00E-125   444
# BLASTN 2.2.29+                                            
# Query: Cryptocephalus aureolus                                            
# Database: SANdouble                                           
# Fields: query id   subject id  % identity  alignment length    mismatches  gap opens   q. start    q. end  s. start    s. end  evalue  bit score
# 4 hits found                                          
Cryptocephalus  ctg7180000093816    95.5    667 12  8   7   655 1269    1935    0   1051
Cryptocephalus  ctg7180000094021    88.01   667 62  8   7   655 1269    1935    0   780
Cryptocephalus  ctg7180000094015    81.26   667 105 13  7   654 1269    1934    2.00E-152   532
Cryptocephalus  ctg7180000093818    78.64   515 106 4   8   519 1270    1783    2.00E-94    340

これをcsvとしてPythonにインポートしました

with open('BLASToutput.csv', 'rU') as csvfile:
    contents = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in contents:
        table = ', '.join(row)

私が今できるようにしたいのは、データの列をリストとして抽出することです。私の全体的な目標は、98% を超える一致 (3 列目) を持つすべての一致をカウントすることです。

問題は、これは典型的な csv 形式ではないため、上部にヘッダーがないため、ヘッダーに基づいて列を抽出できないことです。3番目の列をリストとして抽出できれば、Pythonの通常のリストツールを使用して必要な数値だけを抽出できると考えていましたが、pythons csvモジュールを使用したことがなく、適切なコマンドを見つけるのに苦労しています. SOに関する他の質問は似ていますが、ヘッダーや空のセルがないという私の特定のケースについては言及しないでください。あなたが私を助けることができれば、私はとても感謝しています!

4

2 に答える 2