5

OCRをフォローするためにPDFをTIFF画像に変換しようとしています。パラメータとして「-density300x300-depth8」を使用しています。最初の問題は、500KBのpdfファイルから72MBのtiffファイルを取得することです。2番目の問題は、結果の画像の品質が悪く、OCRが失敗することです。ここであなたはそれを自分で見ることができます。Adobe acrobat Readerが生成した(印刷した)tiff画像: ここに画像の説明を入力してください

ImageMaggick tiff画像: ここに画像の説明を入力してください

違いは大きいです。ImageMaggickを使用してAdobeが生成した画像と同じくらい良くするにはどうすればよいですか?必要なものではありませんが、他の形式も適しています。

UPD:「アンチエイリアス」オプションを見つけました。今でははるかに優れています。しかし、それでもOCRの結果はAdobeバージョンほど正確ではありません。

4

2 に答える 2

7

私の提案は、Ghostscriptコマンドラインを使用することです。とにかくImageMagickはバックグラウンドでGhostscriptを使用するため(これの技術的なIM用語は次のとおりです:GhostscriptはPDF-> TIFFなどの一部の変換の「デリゲート」です)。

複数ページのPDFファイルのレターサイズのページで適切に機能するコマンドラインは次のとおりです。

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffg4 ^
   -r720x720 ^
   -g6120x7920 ^
    input.pdf

この-g...パラメーターは、「デバイスポイント」を使用して出力ページの絶対幅+高さを制御します...(720dpiの6120x7920では、これはたまたま文字サイズになります)。

これらのTIFFページ...

  1. ...黒+白になります、
  2. ...解像度は720dpiになります、
  3. ... G4圧縮され、
  4. ...IMコマンドラインからの非圧縮の300dpiよりもはるかに小さくなります

のIMパラメータは-depth 8、後のOCRのハメ撮りから良い結果を出すのには適していません。これは、文字の周りに灰色の陰影を作成するため、これには役立ちません。

これで、OCRの結果は以前よりもはるかに良くなるはずです。

OCRがTIFFG4形式を処理できない場合(これは疑わしいです)、Ghostscriptを使用して他のTIFFサブ形式を生成できます。例えば:

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffgray ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiff24nc ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

tiffgrayデバイスは8ビットの灰色の出力を作成します。tiff24ncデバイスは8ビットRGBカラー出力を作成します。もちろん、どちらのタイプのTIFFもtiffg4出力よりも大きくなります。

于 2011-05-15T18:36:25.393 に答える
2

ヨーロッパの紙のフォーマットA4およびunix/linuxの場合:

gs -o output.tif -sDEVICE=tiffg4 -r720x720 -sPAPERSIZE=a4 input.pdf 
于 2017-08-01T07:29:17.043 に答える