3

次のタスクを実行するにはJavaライブラリが必要です1)PDFページを画像に変換します2)ページ上に場所があるPDFページからHTMLテキストを抽出します3)PDFページから画像を抽出します

私はすでに試しました

  1. PDFBox-エラーで失敗します-サポートされていない/無効な操作:BDCおよびEMC
  2. icePDF-タスク1)と3)で機能しますが、有料です。
  3. PDFRenderer-失敗します
  4. BFO-有料のライブラリですが、タスク1)および3)を実行できます

誰かがより良い解決策を提案できますか?

4

3 に答える 3

0

Ubuntu環境で問題を解決するために、次の手順に従いました

ステップ1)pdftohtmlライブラリを使用してpdfをhtmlに変換

ステップ 2) Jsoup を使用して、ステップ 1) の html からスタイルと位置を含むテキストを抽出しました。

ステップ 3) CutyCapt を使用して HTML のスナップショットを生成する (必要な場合)

pdftoppm コマンドを使用して、pdf から直接画像を抽出することもできます。

于 2012-10-31T13:21:20.977 に答える
0

JODコンバーターを試しましたか?これは、自己起動型の Open Office Server に対する Java API です。

必要な形式との間で変換されるかどうかを確認するには、Open Office をインストールし、ファイルを開き、必要な形式を「名前を付けて保存」して、サポートされているかどうかを確認してください。

于 2012-10-31T13:08:23.843 に答える
-2

これらすべてを PDFBox で行うことができます。しかし、位置を取得するための API はありません。最新のPDFBoxをダウンロードします。次のリンクにアクセスして、解決策を見つけてください。

  1. Pdf ページを画像に変換する
  2. PDFページから画像を抽出
  3. ページ上の場所がある PDF ページから HTML テキストを抽出する方法は少し異なります。API を使用すると、位置情報は取得されません。しかし、PDFBox を使用してすべての位置情報を取得できます。

このリンクをご覧ください。getTextPos() 関数が表示されます。getTextPos().getXPosition()、getTextPos().getYPosition() は、X 座標と Y 座標を提供します。

于 2012-11-05T07:48:47.337 に答える