問題タブ [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
5160 参照

pdf - PDF ボックスの座標は相対座標ですか、それとも絶対座標ですか?

pyPDF を使用してプログラムで PDF を編集したいと考えています。現在、さまざまな PDF ボックス (TrimBox、MediaBox など) の寸法の解釈に苦労しています。各ボックスには、4 つのタプルとして格納された 4 つのディメンションがあります。

PDF 仕様によると、これらは長方形を表すと想定されており、確かに (56.69, 56.69) がこの長方形の左上隅を決定します。しかし、(1040.31, 751.18) は、この四角形の右下隅として解釈されますか、それとも左上隅を基準としたベクトルとして解釈されますか?

どうやら、その答えはタイプセッターの間ではよく知られているようで、これまで調べたところ、明示的に綴られているものを見つけることができませんでした。

0 投票する
3 に答える
82299 参照

python - How to read line by line in pdf file using PyPdf?

I have some code to read from a pdf file. Is there a way to read line by line from the pdf file (not pages) using Pypdf, Python 2.6, on Windows?

Here is the code for reading the pdf pages:

Update:

The call code is this:

0 投票する
1 に答える
9274 参照

pdf - pypdfでpdfファイルのメタデータを変更する

pypdf を使用して PDF ドキュメントのタイトルを作成/変更したいと思います。タイトルは読み取り専用のようです。このメタデータに r/w でアクセスする方法はありますか?

肯定的な答えがあれば、コードをいただければ幸いです。

ありがとう

0 投票する
21 に答える
145207 参照

python - Pythonで、リサンプリングせずにPDFから画像を抽出しますか?

ネイティブ解像度とフォーマットで、PDFドキュメントからすべての画像を抽出するにはどうすればよいですか?(tiffをtiffとして、jpegをjpegとしてなど、リサンプリングせずに抽出することを意味します)。レイアウトは重要ではありません。ソース画像がページにあるかどうかは関係ありません。

私はPython2.7を使用していますが、必要に応じて3.xを使用できます。

0 投票する
1 に答える
3989 参照

pdf - Adobe Reader 以外のほとんどのリーダーで動作する動的に生成された PDF ファイル

ユーザー入力から動的に PDF を生成しようとしています。ここでは、基本的にユーザー入力を印刷し、作成していない既存の PDF にオーバーレイします。

1つの大きな例外を除いて、機能します。Adobe Reader は、Windows または Linux で正しく読み取れません。私の電話の QuickOffice もそれを読みません。だから私はファイルを作成する私のパスをたどると思った -

1 - LZW エンコーディングを使用して Adob​​e Distiller で作成された背景 PDF 1.2 の元の PDF 。
私はこれを作りませんでした。

2 - Ghostscript で作成された背景
PDF 1.4 の PDF。上記で pdf2ps を使用し、次に ps2pdf を使用して LZW を削除し、reportlab および pyPDF ライブラリがそれを認識できるようにしました。このファイルは、Adobe Reader では不適切なスキャンのように「ぼやけて」表示されますが、他のリーダーでは問題なく表示されることに注意してください。

3 - ユーザー入力から Reportlab で作成された背景 PDF 1.3 と結合するようにフォーマットされたユーザー入力テキストのPDF。
適切に開き、私が試したすべてのリーダーで見栄えがします。

4 - 2 と 3 の PyPDF の関数から作成された完成したPDF PDF 1.3。
mergePage()

開かない:
Windows用 Adob​​e
Reader、Linux 用
Adob​​e Reader、Android 用 QuickOffice

完全に開く:
Google Docs の Web 上の PDF ビューアーLinux 用の
エビンス Linux 用の Ghostscript
ビューアー Windows 用の Foxit リーダー
Mac 用のプレビュー

知っておくべき既知の問題はありますか? 「フラット」が何であるか正確にはわかりませんが、インターネットから、PDF圧縮のためのLZWに代わるオープンソースのようなものだと思いますか? それが私の問題を引き起こしている可能性がありますか?もしそうなら、コードの原因を修正するために使用できるライブラリはありますか?

0 投票する
13 に答える
206905 参照

python - PDFファイルをマージする

Pythonを使用して、別々のPDFファイルをマージすることは可能ですか?

そうだとすれば、これをもう少し拡張する必要があります。ディレクトリ内のフォルダをループして、この手順を繰り返すことを望んでいます。

そして、私は運を押しているかもしれませんが、各PDFに含まれているページを除外することは可能です(私のレポート生成は常に余分な空白のページを作成します)。

0 投票する
4 に答える
11120 参照

django - 生成された PDF ファイルをブラウザで開くには?

元のファイルに透かしをマージする Pdf マージを作成しました。

私が今やりたいことは、ブラウザで「document-output.pdf」ファイルをDjangoビューで開くことです。Django の関連記事は既に確認済みですが、アプローチがかなり異なるため、response オブジェクトをその "file." として使用して PDF オブジェクトを直接作成することはなく、ちょっと迷っています。

では、どうすればDjangoビューでできますか?

0 投票する
2 に答える
2769 参照

python - pypdf python ツール

pypdf pythonモジュールを使用して、次のpdfファイルを読む方法http://www.envis-icpe.com/pointcounterpointbook/Hindi_Book.pdf

上記はバイナリのみを出力します

そして、以下のコードからコンテンツを印刷する方法

0 投票する
3 に答える
6001 参照

python - what causes "insufficient data for image" in a pdf

I have a program in Python (using pyPDF) that merges a bunch of different PDF documents. Sometimes, the resulting pdf is fine, except for some blank pages in the middle. When I view these documents with Acrobat Reader, I get an error message saying "insufficient data for image". When I view the documents with FoxIT Reader, I get some blank pages and a munged image.

The only odd thing about the PDF that creates the blank pages is that it seems to be PDF Version 1.4, and PyPdf seems to create files with PDF Version 1.3.

1) Does the version thing sound like the root cause of my problem?

2) Is there a way to get PyPdf to handle this correctly?

0 投票する
2 に答える
1703 参照

python - Python で PDF ファイルの情報を非表示にする

Python では、ReportLab によって生成されたファイルがあります。ここで、その PDF からいくつかのページを抽出し、機密情報を非表示にする必要があります。

黒く塗りつぶされたスポットを含む PDF ファイルを作成し、pyPdf を使用して mergePage を作成することはできますが、人々は黒く塗りつぶされたスポットの下の情報を選択してコピー アンド ペーストすることができます。

それらのスポットを完全に非公開にする方法はありますか?

たとえば、ページのアドレスを非表示にする必要があるのですが、どうすればよいですか?

ありがとう、