c# - ハウツー：C＃を使用してOCRの前にPDF品質を改善する

Question

スキャンしたファイルのフォルダーを監視するサービスを作成しています。ファイルがそこにあると、サービスはそれを取得し、読み取り可能なPDFに変換します。このプロセスでは、サービスはバーコードも検索します。この後、テキストが抽出され、そのテキストを含むファイルがソフトウェアのデータベースに保存されます。場所はバーコードに基づいています。

現在、OCRには、AtalasoftのSDK（http://www.atalasoft.com/）を使用しています。また、このSDKにはバーコードレコグナイザーが含まれています。

しかし、変換されたテキストにはまだいくつかの間違いがあります。（他のOCRプログラムでいくつかのテストを実行しましたが、Atalasoftはうまくいきました。）OCRの目的でPDFの品質を向上させることができるソフトウェア（SDKキット）を探しています。

Kofax VRS Elite（http://www.kofax.com/vrs-virtualrescan/）をテストしました。似たようなものを探していますが、それはある種のSDKキットを使用してサービスに実装できます。

以前にこれを行った人、または同様の問題を抱えた人はいますか？事前にthx！

score 2 · Accepted Answer

完全に別のパスを試す
ことができます。スキャナーを構成してPDFに直接スキャンし、その場でOCRを実行できるかどうかを確認してください。Lexmark スキャナはこれを行うことができます。これにより、選択および検索可能なテキストを含む PDF が作成されます。これは、PDF 読み取りライブラリで抽出できます。

または、http://www.abbyy.com/を見て、より良い結果が得られるかどうかを確認することもできます。

これらのオプションが適切でない場合は、問題を体系的に分類することをお勧めします
。 1. スキャンした画像の画質に問題がありますか? もしそうなら、これを最初に修正する必要があります。OCR ソリューションは、解像度、コントラスト、および色の影響を受ける場合があります。
2. OCRソフトですか？非常に読みやすい文書を取り、OCR ソフトウェアが間違いを犯すかどうかを確認します。もしそうなら、あなたはより良いOCRソフトウェアを見つけなければならないことを知っています.
3. ドキュメントの品質が良好で、OCR ソフトウェアが判読可能なドキュメントの解読に高い成功率を示している場合は、機能しない例外を確認し、ケースバイケースでこれらに対処することをお勧めします。

ドキュメントの汚れや背景画像が問題の原因である場合は、これを回避する方法を検討するか、API を公開する画像処理ソフトウェアを使用してこれをクリーニングすることをお勧めします。

c# - ハウツー：C＃を使用してOCRの前にPDF品質を改善する

1 に答える 1

Related

Reference