python - Python: 繰り返しセットの数値を取得するための正規表現

翻译自：https://stackoverflow.com/questions/35924746 2016-03-10T18:46:01.890

294 次

Genbank エントリであるファイルを操作しています (これに似ています)

私の目標は、CDS 行の数字を抽出することです。

    CDS             join(1200..1401,3490..4302)

しかし、私の正規表現は、次のように複数の行から数値を抽出することもできるはずです:

     CDS            join(1200..1401,1550..1613,1900..2010,2200..2250,
                 2300..2660,2800..2999,3100..3333)

私はこの正規表現を使用しています：

     import re
     match=re.compile('\w+\D+\W*(\d+)\D*')
     result=match.findall(line)
     print(result)

これにより、正しい数字だけでなく、ファイルの残りの部分からの数字も得られます。

 gene            complement(3300..4037)

正規表現を変更して数値を取得するにはどうすればよいですか？正規表現のみを使用する必要があります..

数値を使用して、塩基配列のコーディング部分を出力します。

2 に答える 2