ファイル:
>1
ATTTTttttGGGG
ccCgCgGAgggGGT
gggggttttTTTTTTTTT
>2
ATcggGGGGGGA
>3
ATCGGGGGGATTT
gggggttAGTAttt
この形式のファイルを読み取る関数を作成しています。この形式には、'>'+名前で区切られた複数のファイルが埋め込まれています (例: '>1','>2')
「>」行に挟まれたテキスト行を取得して、セクションごとに1つの文字列にコンパイルしようとしています
これは次のようになります
name_list = ['>1','>2','>3']
sequence_list = ['ATTTTttttGGGGccCgCgGAgggGGTgggggttttTTTTTTTTT','ATcggGGGGGGA','ATCGGGGGGATTTgggggttAGTAttt']
import os
import re
# Open File
in_file=open(FASTA,'r')
dir,file=os.path.split(FASTA)
temp = os.path.join(dir,output)
out_file=open(temp,'w')
# Generating lines
lines = []
name_list = []
seq_list = []
for line in in_file:
line = line.strip()
lines.append(line)
in_file.close()
indx = range(0,len(lines))
# Organizing the elements
for line in lines:
for i in line:
if i == '>':
name_list.append(line)
else:
break
else: ステートメントで何をすべきかわからない次の「>」を見つけて、それらを seq_list というリストに追加します
どんな助けでも大歓迎です