PDFファイルからすべての添付ファイルを抽出するC#コードがいくつかあります。ドキュメント レベルまたはファイル注釈として添付されている場合でも、うまく機能します。
ただし、これらのPDFファイルにデジタル署名(およびタイムスタンプ)すると、添付ファイルのタイプが注釈(または添付ファイル)から「ウィジェット」などに変わります。私は pdf の専門家ではなく、pdf が署名されている場合に添付ファイルを抽出する方法が見つかりませんでした。
どんな助けでも大歓迎です!
[編集]
署名なしのサンプル: samplepdf_notsigned.pdf
署名付きサンプル (SetaPDF-Signer API で署名済み): samplepdf_signed.pdf
コード ブロックは次のとおりです。
/*
* annotations
*/
iTextSharp.text.pdf.PdfReader reader = new iTextSharp.text.pdf.PdfReader("samplepdf_annotations.pdf");
for (int i = 1; i <= reader.NumberOfPages; i++)
{
iTextSharp.text.pdf.PdfArray array = reader.GetPageN(i).GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
if (array == null) continue;
for (int j = 0; j < array.Size; j++)
{
iTextSharp.text.pdf.PdfDictionary annot = array.GetAsDict(j);
if (iTextSharp.text.pdf.PdfName.FILEATTACHMENT.Equals(annot.GetAsName(iTextSharp.text.pdf.PdfName.SUBTYPE)))
{
iTextSharp.text.pdf.PdfDictionary fs = annot.GetAsDict(iTextSharp.text.pdf.PdfName.FS);
iTextSharp.text.pdf.PdfDictionary refs = fs.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
foreach (iTextSharp.text.pdf.PdfName name in refs.Keys)
{
// I CAN GET THE ATTACHMENT HERE
string filename = fs.GetAsString(name).ToString();
byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes((iTextSharp.text.pdf.PRStream)refs.GetAsStream(name));
}
}
else
{
iTextSharp.text.pdf.PdfDictionary fs = annot.GetAsDict(iTextSharp.text.pdf.PdfName.FS);
iTextSharp.text.pdf.PdfDictionary refs = fs.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
foreach (iTextSharp.text.pdf.PdfName name in refs.Keys)
{
// I CAN GET THE ATTACHMENT HERE
string filename = fs.GetAsString(name).ToString();
byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes((iTextSharp.text.pdf.PRStream)refs.GetAsStream(name));
}
}
}
}
/*
* embedded level
*/
iTextSharp.text.pdf.PdfReader reader = new iTextSharp.text.pdf.PdfReader("samplepdf_embedded.pdf");
iTextSharp.text.pdf.PdfDictionary root = reader.Catalog;
iTextSharp.text.pdf.PdfDictionary documentnames = root.GetAsDict(iTextSharp.text.pdf.PdfName.NAMES);
iTextSharp.text.pdf.PdfDictionary embeddedfiles = documentnames.GetAsDict(iTextSharp.text.pdf.PdfName.EMBEDDEDFILES);
iTextSharp.text.pdf.PdfArray filespecs = embeddedfiles.GetAsArray(iTextSharp.text.pdf.PdfName.NAMES);
for (int i = 0; i < filespecs.Size; ) {
filespecs.GetAsString(i++);
iTextSharp.text.pdf.PdfDictionary filespec = filespecs.GetAsDict(i++);
iTextSharp.text.pdf.PdfDictionary refs = filespec.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
foreach (iTextSharp.text.pdf.PdfName key in refs.Keys)
{
iTextSharp.text.pdf.PRStream stream = (iTextSharp.text.pdf.PRStream)iTextSharp.text.pdf.PdfReader.GetPdfObject(refs.GetAsIndirectObject(key));
// I CAN GET THE ATTACHMENT HERE
string filename = filespec.GetAsString(key).ToString();
byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes(stream);
}
}