0

Genbank エントリであるファイルを操作しています (これに似ています)

私の目標は、CDS 行の数字を抽出することです。

    CDS             join(1200..1401,3490..4302)

しかし、私の正規表現は、次のように複数の行から数値を抽出することもできるはずです:

     CDS            join(1200..1401,1550..1613,1900..2010,2200..2250,
                 2300..2660,2800..2999,3100..3333)

私はこの正規表現を使用しています:

     import re
     match=re.compile('\w+\D+\W*(\d+)\D*')
     result=match.findall(line)
     print(result)

これにより、正しい数字だけでなく、ファイルの残りの部分からの数字も得られます。

 gene            complement(3300..4037)

正規表現を変更して数値を取得するにはどうすればよいですか?正規表現のみを使用する必要があります..

数値を使用して、塩基配列のコーディング部分を出力します。

4

2 に答える 2