2

OCR によるエラーが多い字幕ファイルをクリーンアップしたいと考えています。エラーの 1 つは、lが として表示されることIです。もちろん、主に次の場合には、Iが本当にである場合もあります。I

  • 文頭:I'm Ieaving...または- I'm Ieaving....
  • 名前: IsabeIIe.
  • いくつかの奇妙なケースかもしれません。

I名前は検出が難しいため、 '' のみを直前の 1 つまたは複数の小文字に置き換え、残りは手動で確認するのが最善であると考えました。したがって、変換後、 と が得られI'm IeavingますIsabelle。大文字の直前に小文字がある単語はそれほど多くないため、これは私が考えることができる最も「最低限の」自動化ソリューションです。

正規表現でこれを行うにはどうすればよいですか? 前もって感謝します。

4

3 に答える 3

2

正規表現エンジンが後読みをサポートしている場合は、次のように I の前に小文字が付いているものをすべて見つけることができます。

(?<=[a-z])I

それ以外の場合は、両方の文字を一致させることができ、2 番目の文字は I になります。

[a-z]I
于 2012-05-10T17:18:11.247 に答える
1

これらのいずれかで、エンジンが修飾子グループをサポートしている場合。

(?-i:(?<=[a-z])I)
or
(?-i:[a-z]I)

Unicode の場合は、プロパティを使用する必要があります。

于 2012-05-10T17:27:28.887 に答える
0

/([a-z])I/小文字のazが前に付いた大文字のIをキャプチャします。

于 2012-05-10T17:16:28.563 に答える