問題
Mac OS Xプラットフォームで、PythonまたはTclのいずれかでスクリプトを記述して、PDFファイル内のテキストを検索し、関連する部分を抽出したいと思います。助けていただければ幸いです。
バックグラウンド
私はPDFの内部を調べて、それが請求書であるかどうか、どの会社から、どの期間かを判断するためのスクリプトを書いています。これらの情報に基づいて、PDFの名前を変更し、適切なディレクトリに移動します。たとえば、などのファイルが自分のフォルダに移動するStatement_03948293929384.pdf
可能性があります。2012-07-15 Water Bill.pdf
Utilities
私はこれまで何をしましたか?
- PDFからプレーンテキストへのツールを検索しましたが、まだ何も見つかりません
- Tcl wikiを調べて例を見つけましたが、機能させることができませんでした(PDFでテキストを検索しましたが、見つかりませんでした)。
pdf-parser.py
ディディエ・スティーブンスが調べています- pyPdfというPythonパッケージについて聞いたので、次に見ていきます。
アップデート
Glyph&Cog、LLCによって作成されたpdftotextというコマンドラインツールを見つけました。CarstenBluemによって構築およびパッケージ化されています。このツールは簡単で、私の問題を解決します。テキストファイルに変換せずにPDFを直接検索できるツールをまだ探しています。