OCR によるエラーが多い字幕ファイルをクリーンアップしたいと考えています。エラーの 1 つは、l
が として表示されることI
です。もちろん、主に次の場合には、I
が本当にである場合もあります。I
- 文頭:
I'm Ieaving...
または- I'm Ieaving...
. - 名前:
IsabeIIe
. - いくつかの奇妙なケースかもしれません。
I
名前は検出が難しいため、 '' のみを直前の 1 つまたは複数の小文字に置き換え、残りは手動で確認するのが最善であると考えました。したがって、変換後、 と が得られI'm Ieaving
ますIsabelle
。大文字の直前に小文字がある単語はそれほど多くないため、これは私が考えることができる最も「最低限の」自動化ソリューションです。
正規表現でこれを行うにはどうすればよいですか? 前もって感謝します。