問題タブ [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6471 参照

python - PythonでPDFからストリームを抽出する

このストリームの一部(BLABLABLAという名前の部分)を、それを含むpdfファイルから抽出するにはどうすればよいですか?

または、他の世界では、PDFストリームからサブキーを抽出するにはどうすればよいですか?

いくつかのPythonのライブラリ(pyPdfやReportLabなど)を使用したいのですが、いくつかのC / C++libでもうまくいくはずです。

誰か助けてもらえますか?

0 投票する
3 に答える
22034 参照

python - IndirectObject 抽出用の pyPdf

この例に従って、すべての要素を pdf ファイルにリストできます。

ここで、pdf ファイルから非標準オブジェクトを抽出する必要があります。

私のオブジェクトは MYOBJECT という名前のオブジェクトで、文字列です。

私に関係するpythonスクリプトによって印刷された部分は次のとおりです。

pdfファイルは次のとおりです。

584文字列を参照するために値をたどるにはどうすればよいですか(もちろん pyPdf の下で)??

0 投票する
7 に答える
38394 参照

python - .pdf ファイルのページのトリミング

プログラムで .pdf ファイルを操作した経験がある人がいるかどうか疑問に思っていました。.pdf ファイルがあり、すべてのページを特定のサイズにトリミングする必要があります。

Googleで簡単に検索した後、pythonのpyPdfライブラリを見つけましたが、それを使った実験は失敗しました。ページ オブジェクトの cropBox 属性と trimBox 属性を変更したところ、結果は期待したものではなく、非常にランダムに見えました。

誰もこれを経験したことがありますか?コード例は、できれば python で高く評価されます。

0 投票する
1 に答える
2694 参照

python - pypdfを介したpdfファイルのxmpメタデータの読み取り/書き込み

このコードを使用して、pyPdfを介してxmpメタデータを読み取ることができます。

しかし:これが最善の方法ですか?

そして、pdf_keywordsプロパティを使用しない場合はどうなりますか?

そして、これらのメタデータをpyPdfで設定する方法はありますか?

0 投票する
1 に答える
5107 参照

python - python と pyPdf - ページからテキストを抽出して行間にスペースを入れる方法

現在、pyPdf と extractText() を使用して pdf ページのページ オブジェクトを作成すると、行が連結されます。たとえば、ページの 1 行目が「hello」で 2 行目が「world」の場合、extractText() から返される結果のテキストは「hello world」ではなく「helloworld」になります。誰かがこれを修正する方法を知っていますか、または回避策の提案がありますか? このpdfテキストでテキストマイニングを行っており、行間にスペースがないとそれが殺されるため、テキストの行間にスペースが必要です....

0 投票する
4 に答える
4978 参照

python - アウトラインに基づいてPDFを分割する

pyPdf を使用して、アウトラインに基づいて PDF ファイルを分割し、アウトラインの各宛先が PDF 内の異なるページを参照するようにしたいと考えています。

概要の例:

pyPdf 内では、ドキュメントの各ページまたはドキュメントのアウトラインの各宛先を反復するのは簡単です。ただし、宛先が指しているページ番号を取得する方法がわかりません。

アウトラインの各宛先の参照ページ番号を見つける方法を知っている人はいますか?

0 投票する
2 に答える
370 参照

python - PythonからLinux上で他のpdfを含むpdfを書くためのどのプログラムですか?

Ubuntuサーバーで、他の静的pdfを含むpdfを作成したいと思います。ReportLabをpyPdfで使用してみました。理想的には、ReportLabを使用してすべてを実行しますが、PDFをインポートするには、高額な定期料金がかかるPageCatcherが必要です。

そこで、pyPdfを使用して、ReportLabで作成されたページと他のPDFをマージします。問題は、これがAcrobatとFoxitで正常に見えるにもかかわらず、ページの1つの一部がXerox7400カラープリンターで文字化けして印刷されることです。問題を理解することはできませんが、それが存在し、手頃な価格である場合は、より統合されたソリューションを購入する用意があります。それがWindowsだけであることがわかるまで、PDFCreatorPilotはそれだと思っていました。

それで、リーズナブルな価格($ 1K以下)のソリューションまたは別の提案はありますか?

0 投票する
3 に答える
6407 参照

python - PythonでのPDFファイルの生成とマージ

Pythonで予約確認PDFファイルを自動的に生成したい。ほとんどのコンテンツは静的であり(つまり、ロゴ、予約条件、電話番号)、いくつかの動的なビット(日付、コストなど)があります。

ユーザー側から見ると、これを行う最も簡単な方法は、静的コンテンツを含むPDFファイルから始めて、Pythonを使用して動的部分を追加することです。これは簡単なプロセスですか?

少し検索すると、コンテンツを作成するためにreportlabを使用し、PDFをマージするためにpyPdfを使用できるようです。これが最善のアプローチですか?それとも、私がまだ出会っていない本当にファンキーな方法はありますか?

ありがとう!

0 投票する
1 に答える
811 参照

pdf - Cairo と pyPDF を使用したマージ用の 2 つの PDF の位置合わせ

既存の静的な PDF ブック カバーにグラフィック要素をプログラムで追加する必要があります。現在、pycairo を使用して透明な PDFSurface に描画し、それを pyPdf を使用して既存の静的 PDF にマージします。このように、PDFSurface はオーバーレイとして機能します。

ただし、透明 PDF は静的 PDF の TrimBox とまったく同じサイズであるため、静的 PDF よりも小さくなります。マージ後に静的 PDF の TrimBox を正確にオーバーレイするように、透明 PDF にコンテンツを配置するにはどうすればよいですか?

0 投票する
3 に答える
5160 参照

pdf - PDF ボックスの座標は相対座標ですか、それとも絶対座標ですか?

pyPDF を使用してプログラムで PDF を編集したいと考えています。現在、さまざまな PDF ボックス (TrimBox、MediaBox など) の寸法の解釈に苦労しています。各ボックスには、4 つのタプルとして格納された 4 つのディメンションがあります。

PDF 仕様によると、これらは長方形を表すと想定されており、確かに (56.69, 56.69) がこの長方形の左上隅を決定します。しかし、(1040.31, 751.18) は、この四角形の右下隅として解釈されますか、それとも左上隅を基準としたベクトルとして解釈されますか?

どうやら、その答えはタイプセッターの間ではよく知られているようで、これまで調べたところ、明示的に綴られているものを見つけることができませんでした。