5

私はiPhoneアプリケーションでTesseractOCRエンジンを使用して、請求書の写真から特定の数値フィールドを読み取ります。多くの写真の前処理(適応しきい値処理、アーティファクトクリーニングなど)を使用すると、結果は最終的にかなり正確になりますが、改善したい場合もあります。

ユーザーが暗い場所で写真を撮り、写真にノイズやアーティファクトがある場合、OCRエンジンはこれらのアーティファクトを追加の数字として解釈します。場合によっては、たとえば「32,15」EURの数値を「5432,15」EURと読み取ることができますが、これは製品に対する最終的なユーザーの信頼にはまったく適していません。

読み取られた各文字に関連付けられた内部OCRエンジンの読み取りエラーがある場合、小さなノイズピクセルで認識されるため、前の例の「54」桁よりも高くなると思います。この読み取りエラー値は、誤った数字を簡単に破棄できるようになります。

tesseract OCRエンジンから返された個々の文字の読み取りエラーの大きさ(または「精度係数」値)を取得する方法を知っていますか?

4

1 に答える 1

4

これは、Tesseractの用語では「信頼」値と呼ばれます。tesseract-ocr Groupでその用語を検索すると、TesserractExtractResultメソッドについて言及している多くの回答が見つかりました。

hOCR出力にもこの値が含まれています。

于 2011-09-04T13:34:39.790 に答える