command-line - ImageMagickの問題をtiffするPDF

Question

OCRをフォローするためにPDFをTIFF画像に変換しようとしています。パラメータとして「-density300x300-depth8」を使用しています。最初の問題は、500KBのpdfファイルから72MBのtiffファイルを取得することです。2番目の問題は、結果の画像の品質が悪く、OCRが失敗することです。ここであなたはそれを自分で見ることができます。Adobe acrobat Readerが生成した（印刷した）tiff画像：ここに画像の説明を入力してください

ImageMaggick tiff画像：ここに画像の説明を入力してください

違いは大きいです。ImageMaggickを使用してAdobeが生成した画像と同じくらい良くするにはどうすればよいですか？必要なものではありませんが、他の形式も適しています。

UPD：「アンチエイリアス」オプションを見つけました。今でははるかに優れています。しかし、それでもOCRの結果はAdobeバージョンほど正確ではありません。

score 7 · Accepted Answer

私の提案は、Ghostscriptコマンドラインを使用することです。とにかくImageMagickはバックグラウンドでGhostscriptを使用するため（これの技術的なIM用語は次のとおりです：GhostscriptはPDF-> TIFFなどの一部の変換の「デリゲート」です）。

複数ページのPDFファイルのレターサイズのページで適切に機能するコマンドラインは次のとおりです。

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffg4 ^
   -r720x720 ^
   -g6120x7920 ^
    input.pdf

この-g...パラメーターは、「デバイスポイント」を使用して出力ページの絶対幅+高さを制御します...（720dpiの6120x7920では、これはたまたま文字サイズになります）。

これらのTIFFページ...

...黒+白になります、
...解像度は720dpiになります、
... G4圧縮され、
...IMコマンドラインからの非圧縮の300dpiよりもはるかに小さくなります

のIMパラメータは-depth 8、後のOCRのハメ撮りから良い結果を出すのには適していません。これは、文字の周りに灰色の陰影を作成するため、これには役立ちません。

これで、OCRの結果は以前よりもはるかに良くなるはずです。

OCRがTIFFG4形式を処理できない場合（これは疑わしいです）、Ghostscriptを使用して他のTIFFサブ形式を生成できます。例えば：

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiffgray ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

。

gswin32c.exe ^
   -o page_%03d.tif ^
   -sDEVICE=tiff24nc ^
   -r720x720 ^
   -g6120x7920 ^
   -sCompression=lzw ^
    input.pdf

tiffgrayデバイスは8ビットの灰色の出力を作成します。tiff24ncデバイスは8ビットRGBカラー出力を作成します。もちろん、どちらのタイプのTIFFもtiffg4出力よりも大きくなります。

score 2 · Accepted Answer

ヨーロッパの紙のフォーマットA4およびunix/linuxの場合：

gs -o output.tif -sDEVICE=tiffg4 -r720x720 -sPAPERSIZE=a4 input.pdf

command-line - ImageMagickの問題をtiffするPDF

2 に答える 2

Related

Reference