PDFファイルをtxtファイルに変換するために、いくつかの異なるプログラムを使用しています。通常、これにより見栄えの良いテキストが得られます。時々、そうではありません。次の方法で変換する一連のファイルがあります。
私が読むことができるテキスト: あなたのアカウントの概要
コピーして Notepad++ に貼り付けます。
Ghostscript: ガベージ ファイルのようです。xEF
、xBF
文字がいっぱい。
xPdf: 次のような内容でいっぱいのファイルが表示されます:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ
それぞれの文字がアルファベットを表しているように見えるので、コピペ方法が英語に最も近いようです。SO == Y、SI == o、STX == u など。
これらの pdf ファイルを英語のテキストに変換したいと思います。