5

問題

Mac OS Xプラットフォームで、PythonまたはTclのいずれかでスクリプトを記述して、PDFファイル内のテキストを検索し、関連する部分を抽出したいと思います。助けていただければ幸いです。

バックグラウンド

私はPDFの内部を調べて、それが請求書であるかどうか、どの会社から、どの期間かを判断するためのスクリプトを書いています。これらの情報に基づいて、PDFの名前を変更し、適切なディレクトリに移動します。たとえば、などのファイルが自分のフォルダに移動するStatement_03948293929384.pdf可能性があります。2012-07-15 Water Bill.pdfUtilities

私はこれまで何をしましたか?

  • PDFからプレーンテキストへのツールを検索しましたが、まだ何も見つかりません
  • Tcl wikiを調べて例を見つけましたが、機能させることができませんでした(PDFでテキストを検索しましたが、見つかりませんでした)。
  • pdf-parser.pyディディエ・スティーブンスが調べています
  • pyPdfというPythonパッケージについて聞いたので、次に見ていきます。

アップデート

Glyph&Cog、LLCによって作成されたpdftotextというコマンドラインツールを見つけました。CarstenBluemによって構築およびパッケージ化されています。このツールは簡単で、私の問題を解決します。テキストファイルに変換せずにPDFを直接検索できるツールをまだ探しています。

4

1 に答える 1

1

PyODConverterを使用してPDFとの間で変換を行うことに成功しました(より強力なJavaバージョンもあります)。PDFをテキストに変換したら、検索を行うのは簡単です。また、 iTextも同様のことができるはずだと思いますが、テストはしていません。

于 2012-07-19T23:19:33.843 に答える