一般的ですが非常に具体的な問題を解決したいと思います。OCRエラーのため、多くの字幕ファイルに「l」(小文字のL)ではなく「I」(大文字のi)が含まれています。
私の攻撃計画は次のとおりです。
- ファイルを単語ごとに処理する
- 各単語をhunspellスペルチェッカーに渡します(「echothe-word | hunspell -l」は、有効な場合は応答をまったく生成せず、不良の場合は応答を生成します)
- それが悪い単語であり、大文字のIsが含まれている場合は、これらを小文字のlに置き換えて、再試行してください。現在有効な単語である場合は、元の単語を置き換えます。
スクリプトでファイル全体をトークン化して再構築することは確かにできましたが、そのパスをたどる前に、単語レベルでこれらの種類の条件付き操作にawkやsedを使用できるかどうか疑問に思いました。
他の提案されたアプローチも大歓迎です!