c# - c# PDF を Tif に変換する

Question

私はGhostscriptを使用してC $クラスラッパーでPDFをTifに変換し、OCR tessnet2を使用して画像ファイルのコンテンツを読み取っていましたが、tif画像はほとんど読み取れず、画像はかなり色あせており、正しく見えず、OCRエンジン何も読み取れません。PDFを高品質でTIfに変換できる、数ドルかかるオープンソースまたはライブラリはありますか? または、tessnet2 は PDF を読み取ることができないため、PDF を読み取るオープンソースの OCR エンジン。

score 1 · Accepted Answer

DaNetが言ったように、オープンソースのDLLやそれを行うための無料の方法があるかどうかはわかりません。Leadtoolsという名前のサードパーティツールキットを使用しており、OCRPDFドキュメントで非常に良い結果が得られます。これを使用して、画像に対して何らかの処理を行い（つまり、画像を2値化し、画像から不要なドットを削除し、1ビットの白黒に変換し、TIF画像として保存するなど）、OCRに渡すことができます。エンジン。私は彼らがオンラインデモを持っていることを知っています、あなたはそれを試すことができます。デモへのリンクは次のとおりです：http： //demo.leadtools.com/OnlineRecognitionDemo

結果が要件に一致する場合は、このチュートリアルを確認できます：検索可能なPDFへのスキャン

score 0 · Accepted Answer

オープンソースの OCR についてはよくわかりませんが、ghostscript で生成された tiff の解像度出力で遊んでも問題はないはずです。

-r150 を Ghostscript ラッパーの「string args」に追加して解像度を変更し、適切なサイズのメガバイトファイルを作成しようとしました。

score 0 · Accepted Answer

imageMagicNET クラスの出力形式のプロパティを png16m および DPI に変更して、生成された画像が高品質で OCR エンジンで読み取り可能になるようにする必要がありました。

c# - c# PDF を Tif に変換する

3 に答える 3

Related

Reference