image-processing - スキャンした文書の OCR 精度を向上させる

Question

標準の Brother A3 Multifunction を使用して大量の A3 ドキュメントをスキャンし、FineReader Pro を使用して画像を OCR 処理しています。

ただし、認識された文字に多くのエラーが発生し、英数字以外の奇妙な文字がたくさんあります。

スキャンした画像を前処理するか、認識したテキストを後処理して、OCR の精度をプログラムで改善するためのヒントを誰かに教えてもらえますか?

編集:サンプル pdf を見つけます。これには、最も悪い結果が得られるサンプル画像がいくつか含まれています。

score 2 · Accepted Answer

どこかに投稿できるサンプル画像がありますか？そうすれば、問題のほとんどを引き起こしている原因をすばやく知ることができます。FineReaderは優れたOCRエンジンの1つであるため、結果が悪いのには確かに理由があります。

コントラストとしきい値の設定が不十分、画像のゆがみ、スキャナーのローラーが汚れている、背景が複雑で色が付いている、背景がディザリングされている、フォントサイズが小さすぎる、スキャンdpiが低すぎるなどの問題が考えられます。

添付の画像を見た後、いくつかの小さな問題があります。

背景ページには汚れた斑点がたくさんあります。FineReaderはあなたの画像でこれを使って合理的な仕事をしているようです。
若干のゆがみがありますが、それが原因で問題はありません。
FineReaderは、列ヘッダーに使用されるBOLDトールArialタイプのフォントと混同されています。
4大きな問題は、コントラストが低く、画像がぼやけているページの下部領域にあるようです。これはスキャナーの問題のようですが、印刷の問題が原因である可能性があります。

印刷はかなり貧弱で、新聞からのスキャンだと思います。エラーのほとんどはスキャンの問題が原因であるため、プログラムで結果を改善することは困難です。

まず、少し高い解像度を使用してグレースケールで画像をスキャンしてみて、それが役立つかどうかを確認します。FineReaderはグレースケール画像でうまく機能します。白黒画像が必要な場合は、スキャナードライバーに動的しきい値の設定が含まれているかどうかを確認し、オンにします。

画像は、どのOCRエンジンにとっても簡単な作業ではありません。スキャンを改善できれば、より良い結果が得られます。3ページ目は右下隅にたくさんのノイズがあります。

どのバージョンのFineReasderを使用していますか？FR10は、おそらく以前のバージョンよりも良い結果をもたらすでしょう。

1 に答える 1