1

私は読むことができない奇妙な成文化でエンコードされたpdfを持っています。

これは、バッファを読み取っている場合のオブジェクト ストリームの例です。

BT 1 0 0 -1 9670 5386 Tm (.&RY!) Tj 610 0 Td (.&R%!) Tj 570 0 Td (.%R$!) Tj -10310 -244 Td (KSAK4UOH^.]SKHFS.@SKHF^S.H]) Tj 5954 0 Td (!V) Tj -961 0 Td (!&#!%#%!!") Tj 1356 0 Td (&!!) Tj -2722 0 Td (&.!!!!!'%W!$&&"b) Tj ET

pdftk と qpdf で解凍しようとしましたが、うまくいきませんでした。

暗号化されているように見えますが 、実行qpdf --show-encryption file.pdfすると、「ファイルは暗号化されていません」と表示されます。

を使用するpdftotext file.pdf output.txtと、出力ファイルを完全に読み取ることができるので、特別なコード化が必要だと思います...

助言がありますか?

4

1 に答える 1

1

PDF は CMAP でエンコードされています - http://blog.idrsolutions.com/2012/05/understanding-the-pdf-file-format-embedded-cmap-tables/

于 2013-06-20T06:59:42.043 に答える