私は出版社で働いており、完全にレイアウトされた PDF からコンテンツを抽出しようとしています。元の Acrobat ファイルから Word、HTML、XML などに保存するだけでなく、コンテンツを取得するために pdftohtml、pdftotext、pdfminer、およびその他の Python ベースのアプローチを試しました。
テキストだけではなく、テキストのフォーマットも必要です。これは、たとえば、ドキュメント内のすべての青いテキストが必要なためです。
Acrobat から HTML や Word などに保存すると、結果のファイルにはレイアウトされたテキストではなく、ページのスクリーンショットが含まれます。さまざまな Python モジュールを使用してテキストを抽出すると、テキストは取得されますが、テキストの書式設定が失われます。
私が見つけた唯一の解決策は、PDF から Word doc に手動でコピー アンド ペーストし、HTML として保存することです。これを自動化したいと考えています。
Acrobat から Word にコピーすると、他の方法ではできないことを実現できるのはなぜですか? 誰もこの問題に遭遇したことがありますか?