2

削除したいドキュメントの最初のページの情報ページがあるPDFのコレクションがあります。

この情報ページをすべてのPDFからすばやく削除する方法、または少なくとも複数のページがあるすべてのPDFを表示して、修正が必要なPDFをより適切に見つける方法がある場合はどうでしょうか。

これを実行できるプログラムを知っていますか?または、Pythonでこれを行う方法はありますか?

注:情報ページには、常に同じ「土地所有権事務所」であるというテキストがあります

Windows7OSの使用

ありがとう

いくつかの研究は次のことを明らかにしました:

http://www.python.org/workshops/2002-02/papers/17/index.htm

http://www.unixuser.org/~euske/python/pdfminer/index.html

http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html#pyPdf.pdf.PdfFileWriter-class

4

2 に答える 2

5

オープンソースのPDFBoxをコマンドラインユーティリティとして使用して、PDFを分割できます。

PDFBoxのリンクはこちらです:link

PDFBoxを使用してPDFを分割するためのドキュメントはここにあります:リンク

PDFBoxを使用して、バッチスクリプトからテキスト機能を抽出し、grepと組み合わせて、探しているテキストを含むページを特定できます。抽出テキストのドキュメントはここにあります:リンク

于 2012-10-22T21:08:16.480 に答える
5

次の2つの方法を試すことができます。

  • PdfTKはPDFを操作するためのユーティリティです。このリンクをチェックしてください、彼らはあなたが必要とするものと同様のことをしています(コメントで誰かがWindows用のスクリプトも投稿しました)

  • PDFsamは、PDFをまとめて操作するためのグラフィカルで強力なツールです。split+mergeセクションでうまくいくはずです。

どちらも無料です。よく使う「レシピ」を書きたい場合は最初に勉強することをお勧めしますが、一度やらなければならない場合は後で勉強することをお勧めします。

于 2012-10-22T21:20:58.483 に答える