更新だから私はこのような何千もの線を持つテキスタイルを持っています
BRCA A2ML1 Missense_Mutation TCsA-A1-A0SO A8K2U0 W408C
BRCA A2ML1 Missense_Mutation TCsA-A8-A08P A8K2U0 R433H
BRCA A2ML1 Missense_Mutation TCsA-B6-A0WZ A8K2U0 P1341L
行全体と 6 番目のトークンのみをキャプチャするコードを作成しました (以下のコード)。現在、6 番目のトークンを独自の行に一致させようとしています。
出力として取得したいのは、次のような出力ファイルを書き込もうとしているということです (これはほんの一例です)
A8K2U0 |START=1 END.....| R433H |BRCA A2ML1 Missense_Mutation TCsA-A8-A08P A8K2U0 R433H
他の行と同じ
A8K2U0 |START=1 END.....| P1341L |BRCA A2ML1 Missense_Mutation TCsA-B6-A0WZ A8K2U0 P1341L
辞書のコードは次のとおりです。
lookup = defaultdict(list)
wholelookup = defaultdict(list)
wholeline = defaultdict(list)
mydata = open('file.txt')
for line in csv.reader(mydata, delimiter='\t'):
code = re.match('[a-z](\d+)[a-z]', line[-1], re.I)
if code:
lookup[line[-2]].append(code.group(1))
wholelookup[line[-2]].append(code.group(0))
s=' '.join(line)
wholeline[line[-2]].append(s)