1

IcePDFPDFからコンテンツを使用またはPDFBox抽出したい。しかし、私は今、HTML抽出されたテキストと画像からWebページを生成し続ける方法がありません。

4

1 に答える 1

2

PDFBoxでpdfをhtmlに変換できます。このリンクを試してください。

テキストを抽出するときに -html をパラメーターとして追加すると、pdf の html が取得されます。ただし、画像、グラフィック、その他の詳細は含まれません。html 形式の pdf から抽出されたテキストのみになります。

PDF の正確なルック アンド フィールを作成したい場合、PDFBox には 1 ステップの方法はありません。私の知る限り、pdfの正確なhtmlを作成するためのこの機能を提供するライブラリはありません。しかし、PDFBox を使用すると、画像、テキスト、およびその詳細を抽出できます。これらの詳細を使用して、HTML を生成するためのロジックを作成する必要があります。azzist.comの pdf を html に変換するプロジェクトを行いました。PDFBox を使用して変換を完了しました。azzist では、履歴書を html 形式に変換しています。(まだいくつかのフォントの問題があります)。

Scribd、google、dropbox、zoho などは、この変換をより良い方法で実現しています。これらのサイトのいずれかを見て、彼らがこれをどのように達成したかを確認できます. (ロジックはわかりません。見つけなければなりません)。

于 2012-12-26T10:30:32.443 に答える