BLAST検索からの出力を次の形式で含むExcelのcsvファイルがあります。
# BLASTN 2.2.29+
# Query: Cryptocephalus androgyne
# Database: SANdouble
# Fields: query id subject id % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score
# 1 hits found
Cryptocephalus ctg7180000094003 79.59 637 110 9 38 655 1300 1935 1.00E-125 444
# BLASTN 2.2.29+
# Query: Cryptocephalus aureolus
# Database: SANdouble
# Fields: query id subject id % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score
# 4 hits found
Cryptocephalus ctg7180000093816 95.5 667 12 8 7 655 1269 1935 0 1051
Cryptocephalus ctg7180000094021 88.01 667 62 8 7 655 1269 1935 0 780
Cryptocephalus ctg7180000094015 81.26 667 105 13 7 654 1269 1934 2.00E-152 532
Cryptocephalus ctg7180000093818 78.64 515 106 4 8 519 1270 1783 2.00E-94 340
これをcsvとしてPythonにインポートしました
with open('BLASToutput.csv', 'rU') as csvfile:
contents = csv.reader(csvfile, delimiter=' ', quotechar='|')
for row in contents:
table = ', '.join(row)
私が今できるようにしたいのは、データの列をリストとして抽出することです。私の全体的な目標は、98% を超える一致 (3 列目) を持つすべての一致をカウントすることです。
問題は、これは典型的な csv 形式ではないため、上部にヘッダーがないため、ヘッダーに基づいて列を抽出できないことです。3番目の列をリストとして抽出できれば、Pythonの通常のリストツールを使用して必要な数値だけを抽出できると考えていましたが、pythons csvモジュールを使用したことがなく、適切なコマンドを見つけるのに苦労しています. SOに関する他の質問は似ていますが、ヘッダーや空のセルがないという私の特定のケースについては言及しないでください。あなたが私を助けることができれば、私はとても感謝しています!