私の提案は、Ghostscriptコマンドラインを使用することです。とにかくImageMagickはバックグラウンドでGhostscriptを使用するため(これの技術的なIM用語は次のとおりです:GhostscriptはPDF-> TIFFなどの一部の変換の「デリゲート」です)。
複数ページのPDFファイルのレターサイズのページで適切に機能するコマンドラインは次のとおりです。
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiffg4 ^
-r720x720 ^
-g6120x7920 ^
input.pdf
この-g...
パラメーターは、「デバイスポイント」を使用して出力ページの絶対幅+高さを制御します...(720dpiの6120x7920では、これはたまたま文字サイズになります)。
これらのTIFFページ...
- ...黒+白になります、
- ...解像度は720dpiになります、
- ... G4圧縮され、
- ...IMコマンドラインからの非圧縮の300dpiよりもはるかに小さくなります
のIMパラメータは-depth 8
、後のOCRのハメ撮りから良い結果を出すのには適していません。これは、文字の周りに灰色の陰影を作成するため、これには役立ちません。
これで、OCRの結果は以前よりもはるかに良くなるはずです。
OCRがTIFFG4形式を処理できない場合(これは疑わしいです)、Ghostscriptを使用して他のTIFFサブ形式を生成できます。例えば:
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiffgray ^
-r720x720 ^
-g6120x7920 ^
-sCompression=lzw ^
input.pdf
。
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiff24nc ^
-r720x720 ^
-g6120x7920 ^
-sCompression=lzw ^
input.pdf
tiffgray
デバイスは8ビットの灰色の出力を作成します。tiff24nc
デバイスは8ビットRGBカラー出力を作成します。もちろん、どちらのタイプのTIFFもtiffg4
出力よりも大きくなります。