pdf - PDF（UTF-8）からテキストを正しく抽出する

Question

いくつかの pdf ファイルからテキストを抽出したいのですが (プログラムによって、ユーティリティを使用して、またはコピー/貼り付けを使用して)、一部の文字が非常に奇妙になります。テキストを抽出するときに UTF-8 エンコーディングを指定しますが、「ş、ț、ă」などの文字は「s、t、a」（または少なくとも表示される文字）ではなく「„ ˛」のように見えます。テキストは正しく表示されますが、たとえばコピーしようとすると、それらの文字が正しく表示されません。
テキストを正しく抽出する方法はありますか、またはそれらの pdf ファイルが何らかの方法 (java/C/python などまたは windows/linux/etc ユーティリティ) で破損していますか?

score 0 · Accepted Answer

0

PDF から Acrobat でテキストを正しく抽出できますか?

于 2012-05-18T10:08:10.453 に答える

pdf - PDF（UTF-8）からテキストを正しく抽出する

1 に答える 1

Related

Reference