既にあることは知っていPDFbox
ますiText
が、視覚的なコンテンツを抽出する機能がなく、pdf をオフラインで操作する必要があります。また、オンラインでテキストとビジュアル コンテンツを抽出する方法が必要です。PDFファイルをダウンロードしてから何かをしたくありません。Java言語にはどのようなAPIまたはライブラリがありますか?
明確ではない人のために編集して、さらに説明します。
anyHTML parser
を使用してページをオンラインで解析し、DOM
orSAX
ツリーを作成してそれらの要素を調べ、それらのツリーのノードのコンテンツに基づいて写真とテキストを抽出できると想像してみてください。少なくとも、写真の場合は対応する HTML タグを取得でき、テキストの場合は同じで、実際のテキストを取得できます。今、私はPDFを扱うのに似たことがあるかどうか知りたいですか? ダウンロードせずにテキストと画像を処理する