html - PDFから構造化形式

Question

解釈できる構造化された形式（HTML / XMLなど）に変換する必要のあるPDFがたくさんあります。

私はこれまでHTMLに変換する多くのソフトウェアを試しましたが、それらはすべて画像を分離する機能がなく、テキストのないページの印刷画面のようになり、この画像をhtmlの背景として使用します。テキストを配置するcss

私はたくさんのPDFを持っているので、それぞれの画像を手動で処理することはできません。誰かがこれに対する解決策を知っていますか（有料のソフトウェアでさえ）？

score 3 · Accepted Answer

しばらく前に同様の問題があり、最終的に独自のソリューションを作成しました。それはPDFXと呼ばれ、無料で使用できます。PDF を構造化形式の XML に変換し、PDF で見つかったビットマップ画像 (ベクターグラフィックではない) を個別にレンダリングします。

入力/出力の例は、ここにあります。あなたはそれを試してみたいかもしれません。

1 に答える 1