html - IcePDFまたはPDFBoxを使用してPDFからHTMLページを生成する

Question

IcePDFPDFからコンテンツを使用またはPDFBox抽出したい。しかし、私は今、HTML抽出されたテキストと画像からWebページを生成し続ける方法がありません。

score 2 · Accepted Answer

PDFBoxでpdfをhtmlに変換できます。このリンクを試してください。

テキストを抽出するときに -html をパラメーターとして追加すると、pdf の html が取得されます。ただし、画像、グラフィック、その他の詳細は含まれません。html 形式の pdf から抽出されたテキストのみになります。

PDF の正確なルックアンドフィールを作成したい場合、PDFBox には 1 ステップの方法はありません。私の知る限り、pdfの正確なhtmlを作成するためのこの機能を提供するライブラリはありません。しかし、PDFBox を使用すると、画像、テキスト、およびその詳細を抽出できます。これらの詳細を使用して、HTML を生成するためのロジックを作成する必要があります。azzist.comの pdf を html に変換するプロジェクトを行いました。PDFBox を使用して変換を完了しました。azzist では、履歴書を html 形式に変換しています。（まだいくつかのフォントの問題があります）。

Scribd、google、dropbox、zoho などは、この変換をより良い方法で実現しています。これらのサイトのいずれかを見て、彼らがこれをどのように達成したかを確認できます. （ロジックはわかりません。見つけなければなりません）。

html - IcePDFまたはPDFBoxを使用してPDFからHTMLページを生成する

1 に答える 1

Related

Reference