1

私はこのタイプのデータを持っています(何度も繰り返されます):

@@@FFDFFHHHHHJJFFHGIJJJJGI   
@M00332:5:000000000-A0TVJ:1:1:13498:26189 2:N:0:1   
ACCACAGCCGCTGCCCATTTGCATAA 
+

正規表現を使用して、特定の文字列を含むすべての行を選択しようとしていますcagccgctgcccatttg。私は正規表現の初心者なので、これを試しました:\w{3,}(cagccgctgcccatttg)\w{3,}

どんな助けでも大歓迎です。

乾杯サイモン

4

1 に答える 1

3

私が理解していることから、単一のサブシーケンスを含むすべてのシーケンスを収集したいと考えています。使用している環境はわかりませんが、探しているシーケンスが非常に簡単な方法で返されるはずです。

([ACGT]{3,}CAGCCGCTGCCCATTTG[ACGT]{3,})

角かっこは文字クラスです。つまり、中の任意の 1 文字に一致します。\w に一致させたくありません。探している 4 つの文字のいずれかである場合にのみ、文字に一致させたいとします。また、括弧を使用して正規表現全体をカバーし、一致全体を取得することもできます。

于 2012-07-16T18:07:17.187 に答える