0

Ghostscript と tesseract を使用して、スキャンした PDF からテキスト データを抽出しています。しかし、pdf の一部のスキャン結果は正確ではありません。テスト目的で、pdf のスクリーンショットを撮り、それを tesseract に渡しています。以下は、シナリオと私が直面している問題です。

シナリオ 1:

スクリーンショットへのリンク: https://dl.dropbox.com/u/9409594/scenario_1.tif

この画像 (125% ズームされた pdf のスクリーンショット) を tesseract に渡すと、以下の結果テキストが得られます。

ART\CLE STANDARD NUMBER PFUCE

シナリオ 2:

スクリーンショットへのリンク: https://dl.dropbox.com/u/9409594/scenario_2.tif

上記のスクリーンショット (300% ズーム) を tesseract に渡すと、結果は良好です。

記事番号

以下は、ghostscript と tesseract で使用している引数です。

Ghostscript: gswin64.exe -dNOPAUSE -dBATCH -dSAFER -sDEVICE=tifflzw -r600 -sOutputFile="C:\test\output.tiff" "C:\test\input.pdf"

Tesseract: tesseract.exe "c:\test\output.tif" "c:\test\output.html" -l eng -psm 6 hocr

私のテストから、ズームされたバージョンの画像が tesseract に渡された場合、結果は良好であると感じています。イメージに変換する前に、ghostscript を使用してイメージをズームできますか? または、これを行うより良い方法はありますか?

あなたの時間を感謝し、助けてください!

4

1 に答える 1

0

これを試すことができ ます http://www.fmwconcepts.com/imagemagick/textcleaner/index.php

スクリーンショットを撮ることに関連して、これに気づいているかもしれません。スクリーンショットを撮る代わりに、imagemagik の convert コマンドを使用して pdf を tif に変換するか、複数ページの pdf が pdftoppm を使用してから convert コマンドを使用して tif に変換することができます。

于 2013-06-30T17:13:32.933 に答える