いくつかのドキュメントを OCR するために Python で Tesseract-OCR バージョン 3.05 dev を使用しています。私が抱えている主な問題は、タイプライター フォントの 4 番です。ほとんどの場合、それを見逃して、4 の代わりに空を出力するか、間違ったテキストを出力します。サンプル画像をアップしました。
tesseract も使用する必要はありません。他の (より良い) エンジンに関する提案があれば教えてください。
数字のみを探している場合は、数字のみを含むホワイトリストを追加できます。C++ での例:
tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");
それでもうまくいかない場合は、この特定のフォント用に tesseract-ocr をトレーニングすることをお勧めします。適切で明確なガイドはこちらにあります: https://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57
これが問題の解決に役立つことを願っています。:)