2

解釈できる構造化された形式(HTML / XMLなど)に変換する必要のあるPDFがたくさんあります。

PDFは次の形式です:http: //img840.imageshack.us/img840/5407/pdfv.png

私はこれまでHTMLに変換する多くのソフトウェアを試しましたが、それらはすべて画像を分離する機能がなく、テキストのないページの印刷画面のようになり、この画像をhtmlの背景として使用します。テキストを配置するcss

このように:http://img37.imageshack.us/img37/5015/examplelp.jpg

私はたくさんのPDFを持っているので、それぞれの画像を手動で処理することはできません。誰かがこれに対する解決策を知っていますか(有料のソフトウェアでさえ)?

4

1 に答える 1

3

しばらく前に同様の問題があり、最終的に独自のソリューションを作成しました。それはPDFXと呼ばれ、無料で使用できます。PDF を構造化形式の XML に変換し、PDF で見つかったビットマップ画像 (ベクター グラフィックではない) を個別にレンダリングします。

入力/出力の例は、ここにあります。あなたはそれを試してみたいかもしれません。

于 2012-09-28T15:17:41.997 に答える