Pythonで正規表現を使用して2つの文字列またはフレーズの間の何かをキャプチャし、その行の他のすべてを削除するにはどうすればよいですか?
たとえば、以下は1行のヘッダーが前に付いたタンパク質配列です。フレーズ「FlyBase_Annotation_IDs:」の後、次のコンマ「、」の前に発生する規定に基づいて、下のヘッダーから「CG33289-PC」をふるいにかけるにはどうすればよいですか?
ヘッダーをこの簡略化された結果「CG33289-PC」に置き換える必要があり、タンパク質配列を破壊しないようにする必要があります(すべて大文字のヘッダー行の下にあります)。
これは、各タンパク質配列エントリがどのように見えるかです-ヘッダーとそれに続く配列:
> FBpp0293870 type = protein; loc = 3L:join(21527760..21527913,21527977..21528076,21528130..21528390,21528443..21528653,21528712..21529192,21529254..21529264); ID = FBpp0293870; name = CG33289-PC; 親=FBgn0053289、FBtr0305327; dbxref = FlyBase:FBpp0293870、FlyBase_Annotation_IDs:CG33289-PC; MD5 = 478485a27487608aa2b6c35d39a3295c; 長さ=405; リリース=r5.45; 種=Dmel; MEMLKYVISDNNYSWWIKLYFAIIFALVLFVAVNLAVGIYNKWDSTPVII GISSKMTPIDQIPFPTITVCNMNQAKKSKVEHLMPGSIRYAMLQKTCYKE SNFSQYMDTQHRNETFSNFILDVSEKCADLIVSCIFHQQRIPCTDIFRET FVDEGLCCIFNVLHPYYLYKFKSPYIRDFTSSDRFADIAVDWDPISGYPQ RLPSSYYPRPGVGVGTSMGLQIVLNGHVDDYFCSSTNGQGFKILLYNPID QPRMKESGLPVMIGHQTSFRIIARNVEATPSIRNIHRTKRQCIFSDEQEL LFYRYYTRRNCEAECDSMFFLRLCSCIPYYLPLIYPNASVCDVFHFECLN RAESQIFDLQSSQCKEFCLTSCHDLIFFPDAFSTPFSQKDVKAQTNYLTN FSRAV
これが望ましい出力です。
CG33289-PC
MEMLKYVISDNNYSWWIKLYFAIIFALVLFVAVNLAVGIYNKWDSTPVII GISSKMTPIDQIPFPTITVCNMNQAKKSKVEHLMPGSIRYAMLQKTCYKE SNFSQYMDTQHRNETFSNFILDVSEKCADLIVSCIFHQQRIPCTDIFRET FVDEGLCCIFNVLHPYYLYKFKSPYIRDFTSSDRFADIAVDWDPISGYPQ RLPSSYYPRPGVGVGTSMGLQIVLNGHVDDYFCSSTNGQGFKILLYNPID QPRMKESGLPVMIGHQTSFRIIARNVEATPSIRNIHRTKRQCIFSDEQEL LFYRYYTRRNCEAECDSMFFLRLCSCIPYYLPLIYPNASVCDVFHFECLN RAESQIFDLQSSQCKEFCLTSCHDLIFFPDAFSTPFSQKDVKAQTNYLTN FSRAV