私の目的は、その構造を解析しながら PDF ファイルからテキストと画像を抽出することです。構造を解析する範囲は完全ではありません。見出しと段落を識別できればよいだけです。
私はいくつかの異なることを試しましたが、どれもあまりうまくいきませんでした:
- PDFをテキストに変換します。画像とドキュメントの構造が失われるため、うまくいきません。
- PDF を HTML に変換します。これに役立つツールをいくつか見つけましたが、これまでのところ最高のツールは pdftohtml です。このツールはプレゼンテーションに関しては非常に優れていますが、HTML をうまく解析できませんでした。
- PDF を XML に変換します。同上。
この問題に取り組む方法について何か提案はありますか?