問題タブ [pypdf2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PDFファイルをマージする
Pythonを使用して、別々のPDFファイルをマージすることは可能ですか?
そうだとすれば、これをもう少し拡張する必要があります。ディレクトリ内のフォルダをループして、この手順を繰り返すことを望んでいます。
そして、私は運を押しているかもしれませんが、各PDFに含まれているページを除外することは可能です(私のレポート生成は常に余分な空白のページを作成します)。
python - ブックマークのページ番号を取得する方法
pyPdf.pdf.Destination
多くのプロパティがありますが、そのブックマークの参照ページ番号が見つかりません。ブックマークのページ番号を取得するにはどうすればよいですか?
たとえばoutlines[1].page.idnum
、PDFドキュメントの参照ページ番号の約3倍の数値を返します。これは、ページよりも小さいオブジェクトを参照していると想定しています.page.idnum
。PDFドキュメントのアウトライン全体で実行すると、「実際の」と線形に相関していない数値の配列が返されるためです。 PDFドキュメントのページ番号の宛先であり、およそ3倍になります
更新:この質問はこれと同じです:著者がそこでの自己回答で何をしたかはわかりませんが、アウトラインに基づいてPDFを分割します。複雑すぎて使えないようです
python - PyPDF2 圧縮
PyPDF2 モジュールを使用して、マージされた pdf を圧縮するのに苦労しています。これはhttp://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/に基づく私の試みです
私が受け取るエラーは
マージが完了した後、pdf の圧縮も試みました。圧縮に失敗したのは、PDFSAM を圧縮で使用した後に取得したファイル サイズに基づいています。何かご意見は?ありがとう。
python - PYPDF2 を使用してブックマークを折りたたむ
PYPDF2 を使用して 2 つの PDF ドキュメントを結合する場合、ページ モードを /UseOutlines に設定して、ドキュメントを開いたときに PDF がブックマーク ペインを表示するようにします。
ただし、PDF ドキュメントを開くたびに、ブックマークは常に展開されます。ドキュメントを開いたときにブックマークを強制的に折りたたむように変更できるプロパティはありますか?
python - reportlab pdf に描画された画像が、pdf の用紙サイズよりも大きい
特定のフォルダー内のすべての写真を取得し、それらを pdf に集約するプログラムを作成しています。私が抱えている問題は、画像が描画されると、サイズが大きくなり、奇妙に左に回転することです。私はどこでも検索しましたが、レポートラボのドキュメントでも何も見つかりませんでした。
コードは次のとおりです。
im_width
また、変数を使用してアスペクト比をスケーリングして指定しようとしましたが、同じ出力が得られました。
python - PyPDF2 は 2 ページ目から PDF を追加します
「退屈なものを自動化する」本を使用してプログラミングする方法を学んでいますが、第13章で障害に遭遇しました。「複数のPDFをマージしますが、最初のページ以外のすべてからタイトルページを省略します」
この本では、彼らは PDF をループすることでそれを行っていますが、PyPDF2 モジュールを調べていると、「ページ」オプションがよりクリーンなソリューションであることがわかりました。ただし、これを機能させるのは困難です。
それがpythonicか何かであるかどうかはまだ見ないでください。私はまだクラスを学んでいません ;-) この本の後、クラス、オブジェクト、デコレータ、*args と **kwargs から始める予定です ;-)
スニペットのコードの最後の行で助けが必要です。
私のコード:
モジュールを見ると、これが見つかります: src: https://pythonhosted.org/PyPDF2/PdfFileMerger.html
マージ (位置、fileobj、ブックマーク = なし、ページ = なし、import_bookmarks = True)
pages – ページ範囲または (start, stop[, step]) タプルで、ソース ドキュメントから指定された範囲のページのみを出力ドキュメントにマージできます。
page_ranges についてもこれを見つけましたが、何を試しても動作しません: src: https://github.com/mstamy2/PyPDF2/blob/master/PyPDF2/pagerange.py
エラーは次のとおりです。
TypeError: "pages" must be a tuple of (start, stop[, step])
これについて私が見つけることができるのは次のとおりです。
ソース: https://github.com/mstamy2/PyPDF2/blob/master/PyPDF2/merger.py#L137
すべての助けを前もってありがとう!
python - PyPDF2 は、すべてのスペースを削除することを主張します
私は他の多くのstackoverflowの回答を読みましたが、これに対する満足のいく回答をまだ見つけていませんが、以前に尋ねられました. PyPDF2 を使用して PDF ドキュメントを読み取ろうとすると、文内のすべての単語が 1 つの連続した文字列にマージされます。これを回避する方法を理解する上で進歩した人はいますか。以下はコードです
以下は出力のサンプルです
python - Python 3で1つのtxtファイルに3000以上のpdfファイルを書き込む際にエラーが発生しました
1つのtxtファイルで3000以上のPDFからテキストを抽出しようとしています(各ページからヘッダーを削除する必要がありました):
ただし、次のエラーが表示されます。