Apache fop によって生成され、pdfbox の OverlayPDF を使用してオーバーレイ レターヘッドが配置された PDF/A-1a ファイルであると思われるものがあります。preflight はファイルを OK として認識し (ただし、明らかに PDF/A-1b のみ)、Acroreader はドキュメントのプロパティで「PDF/A」モードで「タグ付き: はい」と表示します。それがどのように見えるかを見てみたいので、fopを微調整していくつかの小さな改善を加えることができます.
私の質問は、タグ付けされたコンテンツ (つまり、PDF のテキスト表現は char 出力のカーニングされたシーケンス) をどこで見ることができますか? 私はそこで少し迷っています - エディターを使用して検索するために、たとえばxmlファイルにドキュメント構造のテキスト出力を取得する別の方法はありますか? -ティア!
編集
レターヘッド自体はもともと Postscript であり、ghostscript を使用して PDF/A-1b に変換され、次に
java -jar pdfbox-app-2.0.0-RC3.jar OverlayPDF letter_plain.pdf \
followingpages_letterhead.pdf -first firstpage_letterhead.pdf \
letter_with_head.pdf
letter_plain.pdf は fop を使用して生成されます
fop -pdfprofile 'PDF/A-1a' -v -d -c my_fop_config.cfg -xml letter.xml \
-xsl letter_to_fo.xsl -pdf letter_plain.pdf
使用されているバージョンは pdfbox 2.0 と fop 1.1 です。
letter_with_head.pdf が PDF/A-1a ではなくなった場合、質問は、fop 呼び出しに従って 1a である letter_plain.pdf に適用され、レターヘッドを取得するために別のソリューション (svg など) を選択する必要があります。その時。
編集 2
PDF の例はこちらにあります: https://www.magentacloud.de/share/j9qk7jfzyv - サンプルは 1 ページのみであるため、個別の followingpages_letterhead.pdf は必要ありません。
編集 3
私は、テキストが下のどこかに埋もれているのではないかと疑っていますがRoot/StructTreeRoot/ParentTree/Nums/[1]/[3]/P/P/P/P/P/P
(P が何らかの形で をマップしていると仮定しfo:block
ます)、pdf からテキストを表示する場所がどこにもありません。