そのため、テキストを抽出する必要がある PDF ファイルの膨大なコレクションがあります。ファイルは暗号化されていますが、パスワードは知っています。テキストを抽出するプロセスを自動化する方法を探しています。
Acrobat Professional でファイルを手動で開き、パスワードを入力してセキュリティを解除し、.txt ファイルとして保存できます。しかし、600 ファイルのバッチ処理でそれを自動化する方法はありません。
これに役立つツールを探しています。私は Perl が得意なので、CPAN のさまざまな PDF 処理モジュールを試しましたが、暗号化されたドキュメントを読み取ることができません。誰にもこれに対する解決策はありますか?
7 に答える
pdftk を見てください。コンソールベースで、パスワードで保護された PDF ファイルを処理します。
pdftotext はそれができるはずです。poppler ライブラリに付属しており、xpdf でも見つけることができます (poppler は xpdf から来ました)。
PDF Password Crackingユーティリティの特別な機能を試すことができます
これは「復号化」オプションと呼ばれます - PDF ファイルの保護されていないコピーを作成するためにパスワードを入力できます
pdftkを試してください:
pdftk secure.pdf input_pw foopass 出力 unsecured.pdf
CAM :: PDFは、PDFを暗号化および復号化できるオープンソースのPerlライブラリです。現在、所有者とユーザーのパスワードが同じである場合にのみ40ビット暗号化を実行できますが、ちょうど今日(偶然に)ユーザーが128ビット暗号化と復号化を許可するパッチを送信しました。来週、その機能強化を加えた新しいバージョンをリリースしたいと思っています。
ただし、CAM::PDFはテキストの抽出があまり得意ではありません。
私は Destan に同意します。AutoIt または AutoHotkey を使用して、他の方法では自動化できない GUI のタスクを自動化できます。遅くなる可能性があり、予期しない状況で停止する可能性があります(さらに、学習曲線がありますが、スクリプトを作成するには Acrobat Professional が必要ですが、少なくとも AutoHotkey フォーラムは非常に役立ちます...)。
実際、Xpdfは、テキスト エクストラクタや復号化のサポートなど、興味深いツールのようです。
まともな純粋なプログラムによる方法が見つからない場合は、代わりにAutoItがあります。
これは「Windows GUI を自動化するために設計されたフリーウェアの BASIC に似たスクリプト言語」であり、コーヒーを飲みながらポインティングやクリックを行うことができます。