問題タブ [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PythonでPDFからストリームを抽出する
このストリームの一部(BLABLABLAという名前の部分)を、それを含むpdfファイルから抽出するにはどうすればよいですか?
または、他の世界では、PDFストリームからサブキーを抽出するにはどうすればよいですか?
いくつかのPythonのライブラリ(pyPdfやReportLabなど)を使用したいのですが、いくつかのC / C++libでもうまくいくはずです。
誰か助けてもらえますか?
python - IndirectObject 抽出用の pyPdf
この例に従って、すべての要素を pdf ファイルにリストできます。
ここで、pdf ファイルから非標準オブジェクトを抽出する必要があります。
私のオブジェクトは MYOBJECT という名前のオブジェクトで、文字列です。
私に関係するpythonスクリプトによって印刷された部分は次のとおりです。
pdfファイルは次のとおりです。
584
文字列を参照するために値をたどるにはどうすればよいですか(もちろん pyPdf の下で)??
python - .pdf ファイルのページのトリミング
プログラムで .pdf ファイルを操作した経験がある人がいるかどうか疑問に思っていました。.pdf ファイルがあり、すべてのページを特定のサイズにトリミングする必要があります。
Googleで簡単に検索した後、pythonのpyPdfライブラリを見つけましたが、それを使った実験は失敗しました。ページ オブジェクトの cropBox 属性と trimBox 属性を変更したところ、結果は期待したものではなく、非常にランダムに見えました。
誰もこれを経験したことがありますか?コード例は、できれば python で高く評価されます。
python - pypdfを介したpdfファイルのxmpメタデータの読み取り/書き込み
このコードを使用して、pyPdfを介してxmpメタデータを読み取ることができます。
しかし:これが最善の方法ですか?
そして、pdf_keywordsプロパティを使用しない場合はどうなりますか?
そして、これらのメタデータをpyPdfで設定する方法はありますか?
python - python と pyPdf - ページからテキストを抽出して行間にスペースを入れる方法
現在、pyPdf と extractText() を使用して pdf ページのページ オブジェクトを作成すると、行が連結されます。たとえば、ページの 1 行目が「hello」で 2 行目が「world」の場合、extractText() から返される結果のテキストは「hello world」ではなく「helloworld」になります。誰かがこれを修正する方法を知っていますか、または回避策の提案がありますか? このpdfテキストでテキストマイニングを行っており、行間にスペースがないとそれが殺されるため、テキストの行間にスペースが必要です....
python - アウトラインに基づいてPDFを分割する
pyPdf を使用して、アウトラインに基づいて PDF ファイルを分割し、アウトラインの各宛先が PDF 内の異なるページを参照するようにしたいと考えています。
概要の例:
pyPdf 内では、ドキュメントの各ページまたはドキュメントのアウトラインの各宛先を反復するのは簡単です。ただし、宛先が指しているページ番号を取得する方法がわかりません。
アウトラインの各宛先の参照ページ番号を見つける方法を知っている人はいますか?
python - PythonからLinux上で他のpdfを含むpdfを書くためのどのプログラムですか?
Ubuntuサーバーで、他の静的pdfを含むpdfを作成したいと思います。ReportLabをpyPdfで使用してみました。理想的には、ReportLabを使用してすべてを実行しますが、PDFをインポートするには、高額な定期料金がかかるPageCatcherが必要です。
そこで、pyPdfを使用して、ReportLabで作成されたページと他のPDFをマージします。問題は、これがAcrobatとFoxitで正常に見えるにもかかわらず、ページの1つの一部がXerox7400カラープリンターで文字化けして印刷されることです。問題を理解することはできませんが、それが存在し、手頃な価格である場合は、より統合されたソリューションを購入する用意があります。それがWindowsだけであることがわかるまで、PDFCreatorPilotはそれだと思っていました。
それで、リーズナブルな価格($ 1K以下)のソリューションまたは別の提案はありますか?
python - PythonでのPDFファイルの生成とマージ
Pythonで予約確認PDFファイルを自動的に生成したい。ほとんどのコンテンツは静的であり(つまり、ロゴ、予約条件、電話番号)、いくつかの動的なビット(日付、コストなど)があります。
ユーザー側から見ると、これを行う最も簡単な方法は、静的コンテンツを含むPDFファイルから始めて、Pythonを使用して動的部分を追加することです。これは簡単なプロセスですか?
少し検索すると、コンテンツを作成するためにreportlabを使用し、PDFをマージするためにpyPdfを使用できるようです。これが最善のアプローチですか?それとも、私がまだ出会っていない本当にファンキーな方法はありますか?
ありがとう!
pdf - Cairo と pyPDF を使用したマージ用の 2 つの PDF の位置合わせ
既存の静的な PDF ブック カバーにグラフィック要素をプログラムで追加する必要があります。現在、pycairo を使用して透明な PDFSurface に描画し、それを pyPdf を使用して既存の静的 PDF にマージします。このように、PDFSurface はオーバーレイとして機能します。
ただし、透明 PDF は静的 PDF の TrimBox とまったく同じサイズであるため、静的 PDF よりも小さくなります。マージ後に静的 PDF の TrimBox を正確にオーバーレイするように、透明 PDF にコンテンツを配置するにはどうすればよいですか?
pdf - PDF ボックスの座標は相対座標ですか、それとも絶対座標ですか?
pyPDF を使用してプログラムで PDF を編集したいと考えています。現在、さまざまな PDF ボックス (TrimBox、MediaBox など) の寸法の解釈に苦労しています。各ボックスには、4 つのタプルとして格納された 4 つのディメンションがあります。
PDF 仕様によると、これらは長方形を表すと想定されており、確かに (56.69, 56.69) がこの長方形の左上隅を決定します。しかし、(1040.31, 751.18) は、この四角形の右下隅として解釈されますか、それとも左上隅を基準としたベクトルとして解釈されますか?
どうやら、その答えはタイプセッターの間ではよく知られているようで、これまで調べたところ、明示的に綴られているものを見つけることができませんでした。