オプションでうまく機能するPDFファイルからテキストを抽出するためにXpdfを使用して-raw
いますが、テキストで太字<b>、斜体<i>などのHTMLフォーマットタグを抽出するために、PDFファイルをHTMLファイルに変換したいと考えています。オプションを指定した Xpdf は機能し-html
ます。これには pdf2html も使用してみましたが、 <sup> や <sub> などのタグが欠落しているため、信頼できるものではありませんでした。
現在、Acrobat Reader を使用して PDF ファイルを HTML ファイルとして保存しています。これにより、すべての HTML 書式タグが提供されます。
複数の PDF ファイルを HTML ファイルとして保存するために Perl で Acrobat Reader を使用する方法はありますか?
ありがとうございました。