0

PDFファイルをHTMLに変換するJavaコードを書くにはどうすればよいですか。PDFドキュメントにテーブルがある場合、同じテーブルがHTMLファイルにもあり、色やリンクなどの他のものと同じです.

4

2 に答える 2

2

私は、Apache PDFBox(Java)に基づいて、まさにこれを行っています。SVGへの変換についてはhttps://bitbucket.org/petermr/pdf2svgを、XMLへの変換についてはhttps://bitbucket.org/petermr/svg2xml-devを参照てください。私は来週テーブルに取り組むつもりです。

このプロセスは少なくとも2つのステップであり、以下が含まれます。

  • PDFをフォント、サイズ、x / yなどのSVG文字に変換します(PDFBoxはこれを行います)
  • 座標を使用して、ページの長方形の領域を見つけます。
  • 「表1」などのテキストヒューリスティックを探します
  • エリアを長方形のテーブルのセルとして解釈しようとします

次に、テーブルに通常の列があるかどうかを確認し、これらに意味のあるラベルがあるかどうかを確認する必要があります。

于 2013-03-10T14:53:41.967 に答える
2

あなたの心を読むものは何もないので、それは2段階のプロセスです:

  1. PDF をメモリに読み込み、iText などのライブラリを使用してコンテンツを解析します。
  2. コンテンツをマークアップに追加し、HTML を出力します。

マークアップの内容と表示するコンテンツを決定できるのは、あなただけです。標準はなく、ソフトウェアはあなたの心を読むことができません。

PDF をブラウザにストリーミングして、そのように表示できないのはなぜですか? HTMLは必要ありません。

于 2013-03-10T14:44:27.387 に答える