1

PostScript ドキュメントからテキスト データを抽出したいと考えています。問題は、GhostScript を使用してそれを行うと、一部のテキストが正常に抽出され、他のテキストが奇妙な記号文字に変換されることです。

通常は抽出されたテキストが、GhostScript がライセンスの制限により PDF に埋め込めないフォントであることに気付きました。そして、皮肉なことに、通常は PDF に埋め込まれているライセンス制限のないフォントは、正しく変換されていませんでした。

PostScriptをテキストに直接変換するtxtwriteデバイスと、最初にPSをPDFに変換してからPDFドキュメントからテキストを抽出するpdfwriteデバイスの両方を試しましたが、どちらも機能しませんでした。

テキストデータが正しく抽出されるように、すべてのフォントをサポートされていないフォントに置き換えることができるのではないかと考えましたが、それを行う簡単な方法はありません。

私は何をすべきだと思いますか?

4

1 に答える 1