いろいろ検索しましたが、自分のニーズに合ったツールが見つかりませんでした。
PDF ファイルを取得し、そのコンテンツを Web ページに表示したいと考えています。
また、特定の単語を強調表示し、レンダリングを処理するフラッシュまたは JavaScript プラグインを使用せずに PDF のコンテンツを含めることができるようにしたいため、PDF コンテンツの表現は html である必要があります。
せいぜいJavaライブラリです。商用か無料かは重要ではありません。オープンの方がいいです。無料の方がいいでしょう。
jPedal、PDFBox、iTextなどの利用可能な PDF ツールは十分に機能しませんでした
Linux システムでのフォントの問題を除けば、JPedal は非常にうまく機能しました。ライブラリは、元のページとまったく同じように html ページをレンダリングしようとします。しかし、これは私にとって重要ではありません。一緒にグループ化された段落と、元のサイズの見出しが必要です。段落の高さが高くても問題ありません。
PdfBox は、while コンテンツを含む単一の文字列のみを再生成するか、ページの各行の html <p> タグのリストを作成します。
また、pdf の内容を読み取るのは難しい作業であることも知っていますが、実際に使用できるものはありませんか??
すでに解決策があることを教えてください。
アップデート:
また、サーバー上でドキュメントをさらに操作するには、ドキュメントの html 表現を取得する必要があります。
各ページが元のページのように見えることはあまり重要ではありません。段落の高さはさまざまで、ヘッダーとフッターも重要ではありません。しかし、それはいいでしょう。
数日後に PDFNet をテストします。ヒントをありがとう