xml - PDF から XML へ、そして再び PDF へ

Question

最近、PDF ファイルを XML ファイルにしてから、できれば元のファイルとまったく同じ、ただし少なくともほぼ同じ PDF ファイルに戻す方法について質問しました。

いろいろな方法を試してきましたが、今のところこの方法にたどり着きました。

LibreOffice で書かれたドキュメントは、DocBook XML として保存されます。「file.xml」という名前だとしましょう。
このファイルは、ファイル「docbook.xsl」によって開始された DocBook プロジェクトの XSL テンプレートのセットで解析されます。
これは次を実行することによって行われます:
結果は中間の XSL-FO で、実行すると PDF になります: fop middle-fo-file.fo final.pdf
この PDF ファイルは、元の ODT ファイルとほとんど同じように見えます。

それでも、最初に PDF ファイルがあるとします。どうすれば同じことができるでしょうか? 助言がありますか？

score 5 · Accepted Answer

PDF から XML への無損失変換の唯一の可能性は、PDF が持っている文書の同じビューを持つターゲット XML ボキャブラリを使用することです。PDF のドキュメントのビューは、プレゼンテーションだけではないにしても主に焦点が当てられており、Docbook のような XML ボキャブラリの設計の通常の動機は、より高いレベルの抽象化を捉えることであるため、次の 2 つの問題に直面します: (1) プレゼンテーション指向の XML ボキャブラリは厚くない。 (2) PDF からより従来型の XML ボキャブラリに (直接またはプレゼンテーション指向の XML を介して) 移行したい場合は、ドキュメントのプレゼンテーションを次の観点から解釈しようとして、水を上り坂に押し上げる必要があります。ターゲット語彙のより高いレベルの抽象化。このようなプロセスを自動化することは、せいぜい非常に困難です。

これが一種の思考実験であり、いつ、どのように可能になるかを確認するために PDF-XML-PDF の往復を考えているのであれば、一般的な形式では不可能だと考える人がいる理由がわかります。何らかの実用的な理由でこの PDF から PDF へのデータフローが必要な場合は、他の方法で実際の目標を達成できるかどうかを検討することをお勧めします。

score 1 · Accepted Answer

ドキュメントがフルテキスト記事（http://pdfx.cs.man.ac.uk/example.pdfなど）のようなものである場合は、PDFXが役立つ可能性があります。

PDF記事をDocbookドキュメントと構造が似たXMLに変換します。また、元のPDFで見つかった抽出された要素に関するいくつかの位置情報（ページ番号や列番号など）を保持しようとします。これは、PDFXXMLから既にPDFを作成しているDocbookXMLに移行するのに役立ちます。

入出力の例：http：//pdfx.cs.man.ac.uk/example

使用法：http：//pdfx.cs.man.ac.uk/usage

XSL-FOの代わりとなるTex、TeXMLを検討することもできます。PDFXのようなXMLを.texmlに変換し、それを.texmlに変換する古いXSLがtexmlありました.tex。

（開示：私はPDFXを書きました。）

xml - PDF から XML へ、そして再び PDF へ

2 に答える 2

Related

Reference