IcePDF
PDFからコンテンツを使用またはPDFBox
抽出したい。しかし、私は今、HTML
抽出されたテキストと画像からWebページを生成し続ける方法がありません。
1 に答える
PDFBoxでpdfをhtmlに変換できます。このリンクを試してください。
テキストを抽出するときに -html をパラメーターとして追加すると、pdf の html が取得されます。ただし、画像、グラフィック、その他の詳細は含まれません。html 形式の pdf から抽出されたテキストのみになります。
PDF の正確なルック アンド フィールを作成したい場合、PDFBox には 1 ステップの方法はありません。私の知る限り、pdfの正確なhtmlを作成するためのこの機能を提供するライブラリはありません。しかし、PDFBox を使用すると、画像、テキスト、およびその詳細を抽出できます。これらの詳細を使用して、HTML を生成するためのロジックを作成する必要があります。azzist.comの pdf を html に変換するプロジェクトを行いました。PDFBox を使用して変換を完了しました。azzist では、履歴書を html 形式に変換しています。(まだいくつかのフォントの問題があります)。
Scribd、google、dropbox、zoho などは、この変換をより良い方法で実現しています。これらのサイトのいずれかを見て、彼らがこれをどのように達成したかを確認できます. (ロジックはわかりません。見つけなければなりません)。