私はiPhoneアプリケーションでTesseractOCRエンジンを使用して、請求書の写真から特定の数値フィールドを読み取ります。多くの写真の前処理(適応しきい値処理、アーティファクトクリーニングなど)を使用すると、結果は最終的にかなり正確になりますが、改善したい場合もあります。
ユーザーが暗い場所で写真を撮り、写真にノイズやアーティファクトがある場合、OCRエンジンはこれらのアーティファクトを追加の数字として解釈します。場合によっては、たとえば「32,15」EURの数値を「5432,15」EURと読み取ることができますが、これは製品に対する最終的なユーザーの信頼にはまったく適していません。
読み取られた各文字に関連付けられた内部OCRエンジンの読み取りエラーがある場合、小さなノイズピクセルで認識されるため、前の例の「54」桁よりも高くなると思います。この読み取りエラー値は、誤った数字を簡単に破棄できるようになります。
tesseract OCRエンジンから返された個々の文字の読み取りエラーの大きさ(または「精度係数」値)を取得する方法を知っていますか?