私の長いシーケンスが次のようになっているとします。
5’-AGGGTTTCCC**TGACCT**TCACTGC**AGGTCA**TGCA-3
この長いシーケンスの 2 つのイタリック体のサブシーケンス (ここでは 2 つの星の内側) は、まとめて逆反復パターンと呼ばれます。これら 2 つのサブシーケンスの A、T、G、C などの 4 文字の長さと組み合わせはさまざまです。しかし、これら 2 つのサブシーケンスの間には関係があります。最初のサブシーケンスを考慮すると、その相補サブシーケンスは ACTGGA であり (A は T と結合し、G は C と結合します)、この相補サブシーケンスを反転すると (つまり、最後の文字が最初に来る)、2 番目のサブシーケンスと一致することに注意してください。
このようなパターンは FASTA シーケンス (1000 万の ATGC 文字を含む) に多数存在し、そのようなパターンとその開始位置と終了位置を見つけたいと考えています。