9

私はいくつかの低品質のPDFを持っています。OCRを使用したいと思います。より正確には、 Ocropus からテキストを取得します。使用するには、最初にImageMagick (pdfを画像に変換するコマンドラインツール)を使用して、これらのpdfをjpgまたはpngに変換します。

ただし、ImageMagickは非常に低品質の画像を生成し、Ocropusはほとんど何も認識しません。可能な限り高品質の画像をOCRに提供するために、低品質のpdfを処理するための最良のパラメーターは何かを知りたいと思います。

このページを見つけましたが、どこから始めればよいのかわかりません。

4

3 に答える 3

15

ImageMagickの「デリゲート」(GhostscriptなどのIMが使用する外部プログラム)の詳細設定については、次のように入力してください。

convert -list delegate

(私のシステムでは、32の異なるコマンドのリストです。)PNGへの変換に使用されるコマンドを確認するには、次を使用します。

convert -list delegate | findstr /i png

わかりました、これはWindows用でした。使用しているOSはわかりません。[*] Linuxを使用している場合は、次のことを試してください。

convert -list delegate | grep -i png

IMはPSまたはEPS入力からのみPNGを生成することがわかります。では、IMはPDFから(E)PSをどのように取得しますか?簡単:

convert -list delegate | findstr /i PDF
convert -list delegate | grep -i PDF

ああ!Ghostscriptを使用してPDF=>PS変換を行い、次にGhostscriptを再度使用してPS=>PNG変換を行います。動作しますが、GhostscriptがPDF => PNGを一度に実行できることがわかっている場合は、これが最も効率的な方法ではありませんそしてより速く。そして、はるかに優れた品質で。

Ghostscriptデリゲートを介した画像へのPDF変換のIMの処理については、何よりもまず2つのことを知っておく必要があります。

  1. デフォルトでは、追加のパラメータを指定しない場合、Ghostscriptは72dpiの解像度で画像を出力します。-density 600そのため、カールの回答は、 Ghostscriptに画像出力に600dpiの解像度を使用するように指示する追加を提案しました。
  2. PDF => PS最初に変換するためにGhostscriptを2回呼び出すIMの迂回PS => PNGは、実際の失敗です。あなたが勝つことは決してなく、ハーディは最初のステップで品質を維持しますが、非常に頻繁にいくつかを失うからです。理由:
    • PDFは、PostScriptでは処理できない透明度を処理できます。
    • PDFにはTrueTypeフォントを埋め込むことができますが、Ghostscriptにはできません。etc.pp. 方向への変換PS => PDFはそれほど重要ではありません....)

そのため、Ghostscriptを直接使用してPDFを一度にPNG(またはJPEG)に変換することをお勧めします。そして、Ghostscriptの最新バージョン8.71(まもなくリリースされる:9.01)を使用してください!コマンドの例を次に示します。

gswin32c.exe ^
  -sDEVICE=pngalpha ^
  -o output/page_%03d.png ^
  -r600 ^
  d:/path/to/your/input.pdf

(これはWindowsのコマンドラインです。Linuxでは、gsの代わりにgswin32c.exe、およびの\代わりにを使用してください。)このコマンドは、PDFページごとに個別のファイルを格納するサブディレクトリ^を見つけることを想定しています。output良質のJPEGを作成するには、

gs \
  -sDEVICE=jpeg \
  -o output/page_%03d.jpeg \
  -r600 \
  -dJPEGQ=95 \
  /path/to/your/input.pdf

(Linuxコマンドバージョン)。この直接変換により、元のPDFファイルにあったTrueTypeフォントと透明度オブジェクトの情報が失われる可能性のある中間のPostScript形式が回避されます。


[*] D'oh!最初はあなたの「linux」タグを見ることができませんでした...

于 2010-08-31T22:37:40.657 に答える
6

-density 600またはそうあなたが必要なものを与える必要があります。

于 2010-08-31T21:28:17.217 に答える
0

あなたが考慮したいと思うかもしれない少なくとも2つの他のツール:

  • pdfimages、パッケージpoppler-utilsに付属しているので、PDFから画像を劣化させることなく簡単に抽出できます。
  • pdfsandwich、これは、を実行するだけでOCRされたファイルを提供できますpdfsandwich inputfile.pdf。適切な結果を得るには、オプションを微調整する必要があるかもしれません。詳細については、公式ページを参照してください。
于 2015-10-08T11:50:25.703 に答える