以下のような映画の字幕ファイルがあります。
2
00:00:44,687 --> 00:00:46,513
Let's begin.
3
00:01:01,115 --> 00:01:02,975
Very good.
4
00:01:05,965 --> 00:01:08,110
What was your wife's name?
5
00:01:08,943 --> 00:01:12,366
- Mary.
- Mary, alright.
6
00:01:15,665 --> 00:01:18,938
He seeks the spirit
of Mary Browning.
7
00:01:20,446 --> 00:01:24,665
Mary, we invite you
into our circle.
8
00:01:28,776 --> 00:01:32,834
Mary Browning,
we invite you into our circle.
....
今、私は実際の字幕テキストの内容だけを一致させたいのですが、
- Mary.
- Mary, alright.
または
He seeks the spirit
of Mary Browning.
それらに含まれる可能性のある特殊文字、数字、および/または改行文字を含みます。しかし、時刻文字列とシリアル番号を一致させたくありません。
したがって、基本的には、数字と特殊文字を含むすべての行をアルファベットのみと一致させたいと考えています。時間文字列やシリアル番号のような他の行に単独で存在する数字と特殊文字は一致させません。
<font color="#FFFF00">[subtitle text any...]</font>
正規表現の助けを借りて、一致した各字幕にタグを一致させて追加するにはどうすればよいですか?
以下のような意味:
<font color="#FFFF00">He seeks the spirit
of Mary Browning.</font>