c# - iTextSharpを使用してPDFから追加のメタデータを抽出する

Question

iTextSharpを使用して基本的なメタデータ（つまり、作成者、タイトル）を抽出するのを見てきましたが、通常は次のようになります。

var pdfReader = new PdfReader(pdfData);
var author = pdfReader.Info["author"]

ただし、私の場合は、ドキュメントに含まれる可能性のある追加の「高度な」メタデータである、もう少しエキゾチックなものを求めています。

ペイントのハイライトはご容赦ください。ただし、問題のデータを示すAdobeAcrobat内のスクリーンショットを次に示します。

adobeacrobatを介した問題のデータ

Infoこの場合、このデータは辞書から入手できないようです。別のライブラリ（TallComponentsによるPDFKit）を使用すると、このデータが公開されますが、iItextを使用して取得する方法があるかどうか疑問に思います

ライセンスの制限により、現在iText 4.1.6で遊んでいますが、必要な機能が追加されている場合は、5.0.6の商用ライセンスを購入することに反対するつもりはありません。

score 4 · Accepted Answer

必要なものが正確に取得されるかどうかはわかりませんが、XMPメタデータを取得するには、次のようにしてみてください。

PdfReader reader = new PdfReader(YOUR_PDF);
byte[] b = reader.Metadata;
if (b != null) {
  string xml = new UTF8Encoding().GetString(b);
}

XML文字列が返されることに注意してください。

IIRCコードは4.1.6で動作します。

1 に答える 1