この例に従って、すべての要素を pdf ファイルにリストできます。
import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects
ここで、pdf ファイルから非標準オブジェクトを抽出する必要があります。
私のオブジェクトは MYOBJECT という名前のオブジェクトで、文字列です。
私に関係するpythonスクリプトによって印刷された部分は次のとおりです。
{'/MYOBJECT': IndirectObject(584, 0)}
pdfファイルは次のとおりです。
558 0 obj
<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 R/Resources
<</ColorSpace <</CS0 563 0 R>>
/ExtGState <</GS0 568 0 R>>
/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>
/ProcSet[/PDF/Text/ImageC]
/Properties<</MC0<</MYOBJECT 584 0 R>>/MC1<</SubKey 582 0 R>> >>
/XObject<</Im0 578 0 R>>>>
/Rotate 0/StructParents 0/Type/Page>>
endobj
...
...
...
584 0 obj
<</Length 8>>stream
1_22_4_1 --->>>> this is the string I need to extract from the object
endstream
endobj
584
文字列を参照するために値をたどるにはどうすればよいですか(もちろん pyPdf の下で)??