java - PDFを変換するための無料のオープンソースJavaライブラリ-画像、PDF-HTML、PDF-画像とテキストを抽出

Question

次のタスクを実行するにはJavaライブラリが必要です1）PDFページを画像に変換します2）ページ上に場所があるPDFページからHTMLテキストを抽出します3）PDFページから画像を抽出します

私はすでに試しました

誰かがより良い解決策を提案できますか？

score 0 · Accepted Answer

Ubuntu環境で問題を解決するために、次の手順に従いました

ステップ1）pdftohtmlライブラリを使用してpdfをhtmlに変換

ステップ 2) Jsoup を使用して、ステップ 1) の html からスタイルと位置を含むテキストを抽出しました。

ステップ 3) CutyCapt を使用して HTML のスナップショットを生成する (必要な場合)

pdftoppm コマンドを使用して、pdf から直接画像を抽出することもできます。

score 0 · Accepted Answer

JODコンバーターを試しましたか？これは、自己起動型の Open Office Server に対する Java API です。

必要な形式との間で変換されるかどうかを確認するには、Open Office をインストールし、ファイルを開き、必要な形式を「名前を付けて保存」して、サポートされているかどうかを確認してください。

score -2 · Accepted Answer

これらすべてを PDFBox で行うことができます。しかし、位置を取得するための API はありません。最新のPDFBoxをダウンロードします。次のリンクにアクセスして、解決策を見つけてください。

Pdf ページを画像に変換する
PDFページから画像を抽出
ページ上の場所がある PDF ページから HTML テキストを抽出する方法は少し異なります。API を使用すると、位置情報は取得されません。しかし、PDFBox を使用してすべての位置情報を取得できます。

このリンクをご覧ください。getTextPos() 関数が表示されます。getTextPos().getXPosition()、getTextPos().getYPosition() は、X 座標と Y 座標を提供します。

3 に答える 3