デジタルからアナログ (インターレース ビデオ) からデジタルへの変換を経た画像に対して OCR を実行する必要があります。使用されている正確なフォントを見つけることはできませんでしたが、サンセリフの組み合わせを調べます。たとえば、Arial、Calibri、Tiresias はトレーニング セットとしてうまく機能する可能性があります。jpeg 圧縮を回避する方法はありません。これらは、標準解像度 (インターレース解除された 720x480) のテキストのみの黒地に白の画像です。
例はここにあり、1000% にサイズ変更されています。
Tesseract でかなりうまく機能する前処理パイプラインを見つけました。
- 400-600% にサイズ変更
- ぼかし
- 閾値(二値化)
- 侵食(ストローク幅を細くする)
問題の 1 つは、't' や 'f' などの文字が十字で菱形になってしまうことです。それでも、このプロセスはうまく機能しますが、完全ではありません。だから私はtesseractを訓練したいと思います。私の質問:
トレーニング セットはどのように作成すればよいですか?
少量のノイズを追加してアナログ - デジタル - アナログをエミュレートしてから、jpeg で圧縮する必要がありますか? 上記と同様に、トレーニング セットに対して前処理を行う必要がありますか? キャプチャした画像と一致するようにノイズの多い jpeg 圧縮画像でトレーニングする場合、キャプチャした画像の前処理をスキップするのが最善ですか?
さらに、テキストを犠牲にすることなく変換/圧縮アーティファクトを取り除くためのヒントをいただければ幸いです。