これまでのところ、2 つのファイルをマージして、次のデータフレーム (df1) を取得できました。
ID someLength someLongerSeq someSeq someMOD someValue
A 16 XCVBNMHGFDSTHJGF NMH T3(P) 7
A 16 XCVBNMHGFDSTHJGF NmH M3(O); S4(P); S6(P) 1
B 24 HDFGKJSDHFGKJSDFHGKLSJDF HFGKJSDFH S9(P) 5
C 22 QIOWEURQOIWERERQWEFFFF RQoIWERER Q16(D); S19(P) 7
D 19 HSEKDFGSFDKELJGFZZX KELJ S7(P); C9(C); S10(P) 1
「someSeq」列に基づいて正規表現一致を行い、「someLongersSeq」列でその部分文字列を探し、一致の開始位置を取得して、それを文字に付けられた整数に追加する方法を探していますT3(P)など。
Example:
2 行目の"ID:A","someSeq":"NmH"
一致は、someLongerSeq の位置 4 から始まります (NmH の上位変換後)。そのため、その数値 4 を someMOD フィールド M3(O);S4(P);S6(P) に追加して、M7(O);S8(P);S10(P) を取得し、新しい値を上書きしますsomeMOD 列。
そして、それを行ごとに行います。正規表現は行ベースごとです。どんな助けでも本当に感謝しています。ありがとう。