Ghostscript と tesseract を使用して、スキャンした PDF からテキスト データを抽出しています。しかし、pdf の一部のスキャン結果は正確ではありません。テスト目的で、pdf のスクリーンショットを撮り、それを tesseract に渡しています。以下は、シナリオと私が直面している問題です。
シナリオ 1:
スクリーンショットへのリンク: https://dl.dropbox.com/u/9409594/scenario_1.tif
この画像 (125% ズームされた pdf のスクリーンショット) を tesseract に渡すと、以下の結果テキストが得られます。
ART\CLE STANDARD NUMBER PFUCE
シナリオ 2:
スクリーンショットへのリンク: https://dl.dropbox.com/u/9409594/scenario_2.tif
上記のスクリーンショット (300% ズーム) を tesseract に渡すと、結果は良好です。
記事番号
以下は、ghostscript と tesseract で使用している引数です。
Ghostscript: gswin64.exe -dNOPAUSE -dBATCH -dSAFER -sDEVICE=tifflzw -r600 -sOutputFile="C:\test\output.tiff" "C:\test\input.pdf"
Tesseract: tesseract.exe "c:\test\output.tif" "c:\test\output.html" -l eng -psm 6 hocr
私のテストから、ズームされたバージョンの画像が tesseract に渡された場合、結果は良好であると感じています。イメージに変換する前に、ghostscript を使用してイメージをズームできますか? または、これを行うより良い方法はありますか?
あなたの時間を感謝し、助けてください!