長い DNA 配列の部分文字列を取得したい
たとえば、次のようになります。
1/ATXGAAATTXXGGAAGGGGTGG
2/AATXGAAGGAAGGAAGGGGATATTX
3/AAAAAATTXXGGAAGGGGXTTTA
4/AAAATTXXATAXXGGAAGGGGXTXG
5/ATTATTGTTXAXTATTT
出力は次のようになります。
1/TXG - TTXX
2/TXG -
3/ - TTXX
4/TTXX - TXG
5/ -
次の正規表現パターンを試しました:
(TXG|TTXX)
それは機能し、結果はリストに入れられますが、元のシーケンスに表示された各結果の順序を取得する方法がわかりません。つまり、とがそれぞれシーケンス 4 のように最初と 2 番目TTXX
に表示されるかどうか、シーケンス 1 のように 2 番目と最初に表示されるかどうか。TXG
2 番目と 3 番目の結果では、match-xx 関数呼び出しは、問題のシーケンスから取得した部分文字列のインデックスを提供しないため、より困難です。あなたの洞察に感謝します。