-1

既にあることは知っていPDFboxますiTextが、視覚的なコンテンツを抽出する機能がなく、pdf をオフラインで操作する必要があります。また、オンラインでテキストとビジュアル コンテンツを抽出する方法が必要です。PDFファイルをダウンロードしてから何かをしたくありません。Java言語にはどのようなAPIまたはライブラリがありますか?

明確ではない人のために編集して、さらに説明します。

anyHTML parserを使用してページをオンラインで解析し、DOMorSAXツリーを作成してそれらの要素を調べ、それらのツリーのノードのコンテンツに基づいて写真とテキストを抽出できると想像してみてください。少なくとも、写真の場合は対応する HTML タグを取得でき、テキストの場合は同じで、実際のテキストを取得できます。今、私はPDFを扱うのに似たことがあるかどうか知りたいですか? ダウンロードせずにテキストと画像を処理する

4

2 に答える 2

-2

PDFImageStreamはそれを行うことができます。制限が 1 つだけある無料バージョンがあります。シングル スレッド アプリケーションでのみ使用できます。

于 2015-01-25T10:33:46.440 に答える