java - オンラインPDFから写真とテキストを抽出する方法

Question

既にあることは知っていPDFboxますiTextが、視覚的なコンテンツを抽出する機能がなく、pdf をオフラインで操作する必要があります。また、オンラインでテキストとビジュアルコンテンツを抽出する方法が必要です。PDFファイルをダウンロードしてから何かをしたくありません。Java言語にはどのようなAPIまたはライブラリがありますか?

明確ではない人のために編集して、さらに説明します。

anyHTML parserを使用してページをオンラインで解析し、DOMorSAXツリーを作成してそれらの要素を調べ、それらのツリーのノードのコンテンツに基づいて写真とテキストを抽出できると想像してみてください。少なくとも、写真の場合は対応する HTML タグを取得でき、テキストの場合は同じで、実際のテキストを取得できます。今、私はPDFを扱うのに似たことがあるかどうか知りたいですか? ダウンロードせずにテキストと画像を処理する

score -2 · Accepted Answer

PDFImageStreamはそれを行うことができます。制限が 1 つだけある無料バージョンがあります。シングルスレッドアプリケーションでのみ使用できます。

java - オンラインPDFから写真とテキストを抽出する方法

2 に答える 2

Related

Reference