3

私は出版社で働いており、完全にレイアウトされた PDF からコンテンツを抽出しようとしています。元の Acrobat ファイルから Word、HTML、XML などに保存するだけでなく、コンテンツを取得するために pdftohtml、pdftotext、pdfminer、およびその他の Python ベースのアプローチを試しました。

テキストだけではなく、テキストのフォーマットも必要です。これは、たとえば、ドキュメント内のすべての青いテキストが必要なためです。

Acrobat から HTML や Word などに保存すると、結果のファイルにはレイアウトされたテキストではなく、ページのスクリーンショットが含まれます。さまざまな Python モジュールを使用してテキストを抽出すると、テキストは取得されますが、テキストの書式設定が失われます。

私が見つけた唯一の解決策は、PDF から Word doc に手動でコピー アンド ペーストし、HTML として保存することです。これを自動化したいと考えています。

Acrobat から Word にコピーすると、他の方法ではできないことを実現できるのはなぜですか? 誰もこの問題に遭遇したことがありますか?

4

1 に答える 1

0

別の方法を検討してもいいかもしれません。このソフトウェア ( https://pdfapi.codeplex.com/ ) は、PDF ファイルを MVS 経由で直接 html に変換できます。MVS を使用できる場合、上記のソフトウェアは、pdf ファイルのテキストを完全に形式を維持できる html に変換するのに役立つと思います。もちろん、あくまでも紹介ですので、お試しいただけます。

于 2013-08-06T09:25:23.877 に答える