python - pdf ファイルから添付ファイルを抽出する linux/python ユーティリティ (注: pdftk 以外)

翻译自：https://stackoverflow.com/questions/19291029 2013-10-10T08:42:41.073

1742 次

政府の Web サイトから PDF ドキュメントをダウンロードするアプリケーションを開発しています。これらのドキュメントには、ほとんどの場合、抽出する必要がある pdf/xml ファイルが添付されています。アプリケーションは Python であり、Linux で実行されます。ただし、これらのドキュメントを抽出するために、pdftk へのシステムコールを作成してファイルを抽出していました。現在、このアプリケーションを Amazon EC2/Amazon AMI に移行しています。Amazon AMI は pdftk をサポートしていないことが判明しました (gcj-jre のサポートがないため)。PDFファイルから添付ファイルを抽出する代替手段はありますか? 純粋な python または Linux コマンドラインのどちらですか? PyPDFにはこれがないようです。そして、私は他のものも見つけることができません。

PS - Amazon AMI から離れたくありません。他のすべてのものを既に構成しており、正常に動作しているためです。

PPS - Amazon AMI から Ubuntu/CentOS に移動する強力な理由 (pdftk がないこと以外) がある場合は、知りたいです。私が構築しているアプリケーションは、かなり大規模になる可能性があります。

python - pdf ファイルから添付ファイルを抽出する linux/python ユーティリティ (注: pdftk 以外)

0 に答える 0

Related

Reference