私はGhostscriptを使用してC $クラスラッパーでPDFをTifに変換し、OCR tessnet2を使用して画像ファイルのコンテンツを読み取っていましたが、tif画像はほとんど読み取れず、画像はかなり色あせており、正しく見えず、OCRエンジン何も読み取れません。PDFを高品質でTIfに変換できる、数ドルかかるオープンソースまたはライブラリはありますか? または、tessnet2 は PDF を読み取ることができないため、PDF を読み取るオープン ソースの OCR エンジン。
3 に答える
DaNetが言ったように、オープンソースのDLLやそれを行うための無料の方法があるかどうかはわかりません。Leadtoolsという名前のサードパーティツールキットを使用しており、OCRPDFドキュメントで非常に良い結果が得られます。これを使用して、画像に対して何らかの処理を行い(つまり、画像を2値化し、画像から不要なドットを削除し、1ビットの白黒に変換し、TIF画像として保存するなど)、OCRに渡すことができます。エンジン。私は彼らがオンラインデモを持っていることを知っています、あなたはそれを試すことができます。デモへのリンクは次のとおりです:http: //demo.leadtools.com/OnlineRecognitionDemo
結果が要件に一致する場合は、このチュートリアルを確認できます: 検索可能なPDFへのスキャン
オープンソースの OCR についてはよくわかりませんが、ghostscript で生成された tiff の解像度出力で遊んでも問題はないはずです。
-r150 を Ghostscript ラッパーの「string args」に追加して解像度を変更し、適切なサイズのメガバイト ファイルを作成しようとしました。
imageMagicNET クラスの出力形式のプロパティを png16m および DPI に変更して、生成された画像が高品質で OCR エンジンで読み取り可能になるようにする必要がありました。