0

オプションでうまく機能するPDFファイルからテキストを抽出するためにXpdfを使用して-rawいますが、テキストで太字<b>、斜体<i>などのHTMLフォーマットタグを抽出するために、PDFファイルをHTMLファイルに変換したいと考えています。オプションを指定した Xpdf は機能し-htmlます。これには pdf2html も使用してみましたが、 <sup> や <sub> などのタグが欠落しているため、信頼できるものではありませんでした。

現在、Acrobat Reader を使用して PDF ファイルを HTML ファイルとして保存しています。これにより、すべての HTML 書式タグが提供されます。

複数の PDF ファイルを HTML ファイルとして保存するために Perl で Acrobat Reader を使用する方法はありますか?

ありがとうございました。

4

1 に答える 1

2

PDF のスタイル情報は完全に恣意的なものであり、意味のある方法で確実に HTML にマップすることはできません。私がうまくいった戦略の 1 つは、-xmlオプションを使用してからLibXMLpdftohtmlを使用してヒューリスティックを出力に適用し、元のドキュメントの合理的な HTML 近似を作成することです。

于 2009-07-27T06:24:55.150 に答える