政府の Web サイトから PDF ドキュメントをダウンロードするアプリケーションを開発しています。これらのドキュメントには、ほとんどの場合、抽出する必要がある pdf/xml ファイルが添付されています。アプリケーションは Python であり、Linux で実行されます。ただし、これらのドキュメントを抽出するために、pdftk へのシステム コールを作成してファイルを抽出していました。現在、このアプリケーションを Amazon EC2/Amazon AMI に移行しています。Amazon AMI は pdftk をサポートしていないことが判明しました (gcj-jre のサポートがないため)。PDFファイルから添付ファイルを抽出する代替手段はありますか? 純粋な python または Linux コマンドラインのどちらですか? PyPDFにはこれがないようです。そして、私は他のものも見つけることができません。
PS - Amazon AMI から離れたくありません。他のすべてのものを既に構成しており、正常に動作しているためです。
PPS - Amazon AMI から Ubuntu/CentOS に移動する強力な理由 (pdftk がないこと以外) がある場合は、知りたいです。私が構築しているアプリケーションは、かなり大規模になる可能性があります。