問題タブ [pypdf2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PyPDF2 を使用してコンテンツを PDF に追加し、過去のバージョンを保持する方法
PDF ドキュメントのバージョンをサポートします。つまり、現在のドキュメントをそのまま維持でき、情報を追加するだけでドキュメントの内容と表示を変更できます。この機能は、過去のデジタル署名でドキュメントの外観と整合性を検証するのに特に役立ちます。
私が言いたいことをよりよく理解するには、図 5 にあるこの文書Digital Signatures in a PDF - Adobe を確認してください。
PDF ファイルにコンテンツを追加する PyPDF2 やその他の Python ライブラリからの多くのドキュメントとサンプルを見てきました。ただし、 pyPDF2を使用したすべての例を見た限り、あるファイルからコンテンツを取得し、そのコンテンツを別のファイルに再構築します。最新バージョンのデジタル署名を紛失したり壊したりせずにそれを行うことはできますか?
過去のバージョンをそのままコピーして、過去のバージョンのオブジェクトを再利用して新しいドキュメント バージョンを作成する方法を知っていますか?
または、ドキュメントを直接変更する方法はありますか? つまり、読み書き用にドキュメントをロードします。
その他の PyPDF2 の例は次のとおりです。
ご覧のとおり、それらはすべて PdfFileReader から読み取り、PdfFileWriterで書き込みを行う PDF を再構築します。私が言いたいのは、このPdfStamper Java classのようなものが必要であり、以前のコンテンツを尊重し、既存の PDF をインクリメンタルに更新するオプションのブール追加パラメーターを使用することです。
pdf - PDFファイルを50ページ間隔で分割
PDFブックを50ページ間隔で分割するGhostscriptがあります。問題は、GS が注釈の透明度を削除していることです (これは技術用語でアルファ チャネルと呼ばれていると思います: http://www.peteryu.ca/tutorials/publishing/pdf_manipulation_tips )。本の次の段落を見てください。ハイライトは、分割前に完全に読み取り可能でした。
今、それはブラックアウトされています。
そのため、PDFtk などの他のツールや注釈を平坦化しない他のツールを使用して分割を行う方法を探しています。
最終的には、Mac で Hazel を使用して、ファイルのフォルダーでスクリプトを実行したいと考えています。
これが役立つ場合のGhostscriptは次のとおりです($ 1はHazelがファイルをインポートする方法だと思います)。
これで私を助けてもらえますか?
ありがとう
python - Python - PDFをページごとに分割
PyPdf2
大きなページに分割するために使用しPDF
ています。問題は、このプロセスが非常に遅いことです。
これは私が使用するコードです:
このコードを使用すると、177 ページの PDF を分割するのに約 35 ~ 55 秒かかります。このコードを改善する方法はありますか? この仕事により適した他のライブラリはありますか?
python - PyPDF2 を使用してバイナリ pdf を復号化する
こんにちは、学校の辞書 (python) を使用して pdf を復号化するスクリプトをプログラミングしています。私は PyPDF2 ライブラリを使用していますが、PDF ファイルは latin-1 でエンコードされており、PyPDF2 はそのエンコードされたファイルを処理できないように見えるため、PDF ファイルの復号化に問題があります。スクリプトを他の PDF ファイル (latin-1 でエンコードされていない) でチェックしたところ、動作するので、その PDF ファイルを UTF-8 でエンコードするか、PyPDF2 を latin-1 で動作させる必要があります。
ここに私のスクリプトがあります:
したがって、「/diccionarios/ingles/」ディレクトリにある辞書を使用してファイル「apuntes.pdf」を復号化しようとしていますが、エラーはコマンドだけです: pdf = PyPDF2.PdfFileReader(open('apuntes.pdf ', 'rb')) および if pdf.decrypt(i.lower()): 任意の単語で復号化しようとすると、次のメッセージが返されます: **
-- プロバンド ラス コンビナシオネス デ: 0_diccionarioIngles1.txt
エラー: aahed 情報: 'latin-1' コーデックは、位置 0 の文字 '\u015e' をエンコードできません: 序数が範囲内にありません (256)
では、その PDF でスクリプトを動作させるにはどうすればよいでしょうか?
ありがとう
python-3.x - 空白を含むpdfminerを使用してpdfを抽出する
SOで何度も議論されているpdfからテキストを抽出しようとしていますが、単語間の空白を保持してpdfを抽出することはできません。
産むのはどれですか:
'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)スペースグループは大規模な\n\nさまざまな優れた機能特性に起因する注目を集めていますsu
しかし、pdf2txt.py
ターミナルで直接使用すると、次のようになります。
私は出力を得ています:
論文
pubs.acs.org/accounts
新しい非中心対称材料の合理的な設計に向けて: フレームワーク構造に影響を与える要因
カン・ミンオク*
中央大学化学科、84 Heukseok-ro、Tongjak-gu、Seoul 06974、Republic of Korea
CONSPECTUS: 拡張構造を持つ固体材料は、多くの興味深い構造関連特性を明らかにしました。なかでも、非中心対称(NCS)空間群で結晶化する物質は、さまざまな優れた機能特性に起因する大きな注目を集めています su
これが望ましい出力です。
Pythonスクリプトで間違っていることがわかりません。助けてください。