1

PDFページからテキストを抽出するためにghostscript8.71を使用しています。

私が使用しているコマンドは次のとおりです。

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
         -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1  \
         -dLastPage=1 input.pdf -dQUIET

そして、私は<stdout>テキストを別のファイルに送るために使用しています。

しかし、問題は、検索可能なテキストアイテムの一部がGhostscriptによって抽出されないことです。

一部のフォントテキストは抽出されません。例:太字のVerdana。しかし、Ghostscriptはフォントファイルを開いています。

PDFファイルをアップロードできますが、ここではアップロードオプションが見つかりませんでした。利用可能なオプションがあれば、私に知らせてください。

4

1 に答える 1

0

pdftotextXPDF パッケージなどから、テキストを抽出する別のコマンドライン ツールも試しましたか? これらはどのように比較されますか?

出力に正確に何が欠けているかについて詳しく教えてください。特定の種類の文字だけ、特定のフォントだけ、特定のページだけ?

"gs"また、Linux/Unix 構文 ( ) と Windows 構文 ( ) を混在させています"c:\fonts"。Windows システムでは、通常、フォントがホストされるデフォルトの場所はc: \Windows \fonts ... です。

ああ、そうです。問題のある PDF ファイルを確認できると、間違いなく役に立ちます。

于 2010-09-01T22:42:07.353 に答える