2

PDFファイルをtxtファイルに変換するために、いくつかの異なるプログラムを使用しています。通常、これにより見栄えの良いテキストが得られます。時々、そうではありません。次の方法で変換する一連のファイルがあります。

私が読むことができるテキスト: あなたのアカウントの概要

コピーして Notepad++ に貼り付けます。 CopyPasteIntoNotepadPlusPlus

Ghostscript: ガベージ ファイルのようです。xEFxBF文字がいっぱい。

xPdf: 次のような内容でいっぱいのファイルが表示されます:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

それぞれの文字がアルファベットを表しているように見えるので、コピペ方法が英語に最も近いようです。SO == Y、SI == o、STX == u など。

これらの pdf ファイルを英語のテキストに変換したいと思います。

4

1 に答える 1

1

通常、Unicode 記号は

xEF、xBF

. Unicode から使いやすい文字への追加の変換が必要でした。

于 2013-09-11T03:13:04.217 に答える