Genbank エントリであるファイルを操作しています (これに似ています)
私の目標は、CDS 行の数字を抽出することです。
CDS join(1200..1401,3490..4302)
しかし、私の正規表現は、次のように複数の行から数値を抽出することもできるはずです:
CDS join(1200..1401,1550..1613,1900..2010,2200..2250, 2300..2660,2800..2999,3100..3333)
私はこの正規表現を使用しています:
import re
match=re.compile('\w+\D+\W*(\d+)\D*')
result=match.findall(line)
print(result)
これにより、正しい数字だけでなく、ファイルの残りの部分からの数字も得られます。
gene complement(3300..4037)
正規表現を変更して数値を取得するにはどうすればよいですか?正規表現のみを使用する必要があります..
数値を使用して、塩基配列のコーディング部分を出力します。