ocr - tesseract と python を使用してタイプライターフォントを適切に OCR する方法

Question

いくつかのドキュメントを OCR するために Python で Tesseract-OCR バージョン 3.05 dev を使用しています。私が抱えている主な問題は、タイプライターフォントの 4 番です。ほとんどの場合、それを見逃して、4 の代わりに空を出力するか、間違ったテキストを出力します。サンプル画像をアップしました。

tesseract も使用する必要はありません。他の (より良い) エンジンに関する提案があれば教えてください。

score 4 · Accepted Answer

数字のみを探している場合は、数字のみを含むホワイトリストを追加できます。C++ での例:

tesseract::TessBaseAPI api;
api.SetVariable("tessedit_char_whitelist", "0123456789");

それでもうまくいかない場合は、この特定のフォント用に tesseract-ocr をトレーニングすることをお勧めします。適切で明確なガイドはこちらにあります: https://medium.com/apegroup-texts/training-tesseract-for-labels-receipts-and-such-690f452e8f79#.mpllnzu57

これが問題の解決に役立つことを願っています。:)

ocr - tesseract と python を使用してタイプライター フォントを適切に OCR する方法

1 に答える 1

Related

Reference

ocr - tesseract と python を使用してタイプライターフォントを適切に OCR する方法