python - Ghostscript PDF から PNG: 結果の画像で単語の文字間隔が乱れる

Question

PDFファイルから、PDFの各ページに対して1つのpng画像を正常に生成しています。

問題は、使用する設定に関係なく、一部のページで GhostScript がフォントの間隔を台無しにして、一部の png で 1 つの単語が 2 つまたは 3 つの単語のように見えることです。

これらのファイルを evernote で使用しているため、予想される検索結果が台無しになるため、これは問題です。そのため、「プロバイダー」を検索しても何も返されません。これは、png ファイルでは「プロバイダー」として表示されるためです (または「ユーザー」は「使用 rs」として表示されます)。

左側にソース pdf の元のテキスト、右側に生成された png を示すスクリーンショットへの Dropbox リンク --> http://dl.dropbox.com/u/13267240/ScreenClip.png

私は Ghostscript を初めて使用し、なぜこれが起こっているのか途方に暮れています。

これが私が使用しているコマンドラインです（Pythonで）：

cmd = "gswin%sc" % (SYS_PROCESSOR_ARCH) + "-q -dNOPAUSE -dBATCH -dPDFFitPage=true -sDEVICE=png16m -r%s " % (PNG_RES) + "-sOutputFile=" + '"%s\%s -pg-%%d.%s" "%s"' % (outputdir、outputFileNamePrefix、suffix、pdfSourceFile)

OR 実行時に評価:

gswin64c -q -dNOPAUSE -dBATCH -dPDFFitPage=true -sDEVICE=png16m -r300X300 -sOutputFile="C:\EPTK-TMP\02-01-はじめに-pg-%d.png" "C:\EPTK-TMP\02 -01-はじめに.pdf」

score 3 · Accepted Answer

PDF サンプルのフォントはサンセリフフォントです (線の小さな装飾的な末尾などはありません...)。PNG サンプルのフォントはセリフフォントです (小さな装飾的なものがあります...)。

したがって、GhostScript は、PDF から PNG への変換中に、何らかの理由で正しいフォントを使用していません。これにはいくつかの理由が考えられます。

1) フォントが PDF ファイルに埋め込まれていない可能性があるため、GhostScript は別の方法を見つけなければなりません。

2) お使いのシステムでフォントが利用できない場合もあるため、GhostScript は単純にそれらをデフォルトのものに置き換えます。これにより、文字の外観が変わり、おそらく文字の幅も変わるため、結果としてスペースの問題が発生します.

問題は、そもそも PDF を生成しているかどうかです。その場合は、GhostScript が埋め込みフォントを使用できるようにする必要があるかもしれません。PDF を生成していない場合は、これらの PDF ファイルで使用されているフォントを調べて、それらがシステムの GhostScript で使用できることを確認してください。

私は GhostScript についてあまり知られていませんが、おそらくフォントは既にシステムに存在し、GhostScript がそれらを見つけられないだけです。その場合、システム上の正しいフォントフォルダを指すコマンドライン引数があるかどうかを調べます。

python - Ghostscript PDF から PNG: 結果の画像で単語の文字間隔が乱れる

1 に答える 1

Related

Reference