問題タブ [pypdf2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
768 参照

python - PyPDF2 を使用してコンテンツを PDF に追加し、過去のバージョンを保持する方法

PDF ドキュメントのバージョンをサポートします。つまり、現在のドキュメントをそのまま維持でき、情報を追加するだけでドキュメントの内容と表示を変更できます。この機能は、過去のデジタル署名でドキュメントの外観と整合性を検証するのに特に役立ちます。

私が言いたいことをよりよく理解するには、図 5 にあるこの文書Digital Signatures in a PDF - Adob​​e を確認してください。

PDF ファイルにコンテンツを追加する PyPDF2 やその他の Python ライブラリからの多くのドキュメントとサンプルを見てきました。ただし、 pyPDF2を使用したすべての例を見た限り、あるファイルからコンテンツを取得し、そのコンテンツを別のファイルに再構築します。最新バージョンのデジタル署名を紛失したり壊したりせずにそれを行うことはできますか?

過去のバージョンをそのままコピーして、過去のバージョンのオブジェクトを再利用して新しいドキュメント バージョンを作成する方法を知っていますか?

または、ドキュメントを直接変更する方法はありますか? つまり、読み書き用にドキュメントをロードします。

その他の PyPDF2 の例は次のとおりです。

ご覧のとおり、それらはすべて PdfFileReader から読み取り、PdfFileWriterで書き込みを行う PDF を再構築します。私が言いたいのは、このPdfStamper Java classのようなものが必要であり、以前のコンテンツを尊重し、既存の PDF をインクリメンタルに更新するオプションのブール追加パラメーターを使用することです。

0 投票する
0 に答える
873 参照

pdf - PDFファイルを50ページ間隔で分割

PDFブックを50ページ間隔で分割するGhostscriptがあります。問題は、GS が注釈の透明度を削除していることです (これは技術用語でアルファ チャネルと呼ばれていると思います: http://www.peteryu.ca/tutorials/publishing/pdf_manipulation_tips )。本の次の段落を見てください。ハイライトは、分割前に完全に読み取り可能でした。

今、それはブラックアウトされています。

そのため、PDFtk などの他のツールや注釈を平坦化しない他のツールを使用して分割を行う方法を探しています。

最終的には、Mac で Hazel を使用して、ファイルのフォルダーでスクリプトを実行したいと考えています。

これが役立つ場合のGhostscriptは次のとおりです($ 1はHazelがファイルをインポートする方法だと思います)。

これで私を助けてもらえますか?

ありがとう

0 投票する
2 に答える
7926 参照

python - Python - PDFをページごとに分割

PyPdf2大きなページに分割するために使用しPDFています。問題は、このプロセスが非常に遅いことです。

これは私が使用するコードです:

このコードを使用すると、177 ページの PDF を分割するのに約 35 ~ 55 秒かかります。このコードを改善する方法はありますか? この仕事により適した他のライブラリはありますか?

0 投票する
1 に答える
6497 参照

python - PyPDF2 PdfFileWriter には属性ストリームがありません

PDFをページに分割し、各ページを新しいPDFとして保存しようとしています。以前の質問からこの方法を試しましたが、成功しませんでした。ここからのpypdf2分割の例は成功しませんでした。編集:ファイルで、最初のページが正常に書き込まれ、2 ページ目の pdf が作成されますが、空であることがわかります。

実行しようとしているコードは次のとおりです。

完全なエラー メッセージは次のとおりです。

私もこれを試してみて、実際に単一のページを抽出できることを確認しました。

0 投票する
0 に答える
518 参照

python - PyPDF2 を使用してバイナリ pdf を復号化する

こんにちは、学校の辞書 (python) を使用して pdf を復号化するスクリプトをプログラミングしています。私は PyPDF2 ライブラリを使用していますが、PDF ファイルは latin-1 でエンコードされており、PyPDF2 はそのエンコードされたファイルを処理できないように見えるため、PDF ファイルの復号化に問題があります。スクリプトを他の PDF ファイル (latin-1 でエンコードされていない) でチェックしたところ、動作するので、その PDF ファイルを UTF-8 でエンコードするか、PyPDF2 を latin-1 で動作させる必要があります。

ここに私のスクリプトがあります:

したがって、「/diccionarios/ingles/」ディレクトリにある辞書を使用してファイル「apuntes.pdf」を復号化しようとしていますが、エラーはコマンドだけです: pdf = PyPDF2.PdfFileReader(open('apuntes.pdf ', 'rb')) および if pdf.decrypt(i.lower()): 任意の単語で復号化しようとすると、次のメッセージが返されます: **

-- プロバンド ラス コンビナシオネス デ: 0_diccionarioIngles1.txt

エラー: aahed 情報: 'latin-1' コーデックは、位置 0 の文字 '\u015e' をエンコードできません: 序数が範囲内にありません (256)

では、その PDF でスクリプトを動作させるにはどうすればよいでしょうか?

ありがとう

0 投票する
1 に答える
3201 参照

python-3.x - 空白を含むpdfminerを使用してpdfを抽出する

SOで何度も議論されているpdfからテキストを抽出しようとしていますが、単語間の空白を保持してpdfを抽出することはできません。

産むのはどれですか:

'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)スペースグループは大規模な\n\nさまざまな優れた機能特性に起因する注目を集めていますsu

しかし、pdf2txt.pyターミナルで直接使用すると、次のようになります。

私は出力を得ています:

論文

pubs.acs.org/accounts

新しい非中心対称材料の合理的な設計に向けて: フレームワーク構造に影響を与える要因

カン・ミンオク*

中央大学化学科、84 Heukseok-ro、Tongjak-gu、Seoul 06974、Republic of Korea

CONSPECTUS: 拡張構造を持つ固体材料は、多くの興味深い構造関連特性を明らかにしました。なかでも、非中心対称(NCS)空間群で結晶化する物質は、さまざまな優れた機能特性に起因する大きな注目を集めています su

これが望ましい出力です。

Pythonスクリプトで間違っていることがわかりません。助けてください。