pyPdf を壊す pdf ファイルがあります: http://tovotu.de/tests/test.pdf
サンプル スクリプトは次のとおりです。
from pyPdf import PdfFileWriter, PdfFileReader
outputPdf = PdfFileWriter()
inpdf = open("test.pdf","rb")
inputPdf = PdfFileReader(inpdf)
[outputPdf.addPage(x) for x in inputPdf.pages]
with open("output.pdf","wb") as outpdf:
outputPdf.write(outpdf)
エラー出力はこちら: http://pastebin.com/0m38zhjQ
GitHub の PyPDF2 を使用した場合も同様のエラーが発生します。pdftk は、この pdf を他の pdf と同じように処理できます。書き込みは失敗しますが、読み取りは問題なく動作するようです。
少なくとも、そのエラーの原因となっている pdf の正確な部分を教えていただけますか? 回避策はさらに良いでしょう:)