したがって、次のような約1000行のファイルがあります。
COADREAD ZNF271 Missense_Mutation TCGA-AA-3947 Q14591 A177T
COADREAD ZNF271 Missense_Mutation TCGA-AA-A00N Q14591 I26T
COADREAD ZNF271 Missense_Mutation TCGA-AG-A002 Q14591 M418T
IDの5列目を探し、2文字の間の数字を取得するコードがあります。
5 列目 (または 6 列目のトークン) の id の後にトークン全体を取得する方法はありますか。
そのトークンを取得して、別のファイルに書き込むことができるようにします。
ここに私がこれまでに持っているものがあります(このコードは私に数字を与えますが、計算する数字とそのトークンの文字列全体を取得して出力ファイルに出力する方法はありますか): たとえば、lookup[Q14591] を呼び出す場合['177','26',418] が表示されますが、A177T I26T と M418T も必要です
lookup = defaultdict(list)
mydata = open('summaryfile.txt')
for line in csv.reader(mydata, delimiter='\t'):
code = re.match('[a-z](\d+)[a-z]', line[-1], re.I)
if code:
lookup[line[-2]].append(code.group(1))