PDFページからテキストを抽出するためにghostscript8.71を使用しています。
私が使用しているコマンドは次のとおりです。
gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
-dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \
-dLastPage=1 input.pdf -dQUIET
そして、私は<stdout>
テキストを別のファイルに送るために使用しています。
しかし、問題は、検索可能なテキストアイテムの一部がGhostscriptによって抽出されないことです。
一部のフォントテキストは抽出されません。例:太字のVerdana。しかし、Ghostscriptはフォントファイルを開いています。
PDFファイルをアップロードできますが、ここではアップロードオプションが見つかりませんでした。利用可能なオプションがあれば、私に知らせてください。