問題タブ [pypdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1720 参照

python - pyPdf: 不正な UTF-16 サロゲート

pyPdf を壊す pdf ファイルがあります: http://tovotu.de/tests/test.pdf

サンプル スクリプトは次のとおりです。

エラー出力はこちら: http://pastebin.com/0m38zhjQ

GitHub の PyPDF2 を使用した場合も同様のエラーが発生します。pdftk は、この pdf を他の pdf と同じように処理できます。書き込みは失敗しますが、読み取りは問題なく動作するようです。

少なくとも、そのエラーの原因となっている pdf の正確な部分を教えていただけますか? 回避策はさらに良いでしょう:)

0 投票する
3 に答える
20728 参照

python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出

pdfMiner を使用して pdf ファイルのテキストを解析しようとしていますが、抽出されたテキストがマージされます。以下のリンクのpdfファイルを使用しています。

PDFファイル

私はあらゆるタイプの出力 (ファイル/文字列) を得意としています。抽出されたテキストを文字列として返すコードを次に示しますが、何らかの理由で列がマージされます。

PyPdf2 も試しましたが、同じ問題に直面しました。PyPDF2 のサンプル コードは次のとおりです。

pdf2txt.pyも試しましたが、フォーマットされた出力を取得できません。

0 投票する
1 に答える
2312 参照

python - Python 3 での PDF の結合

Python 3 で動作する PDF 操作モジュールはありますか? Pypdf を試してみましたが、PIP でインストールしようとするとエラーが発生します。PDFファイルを結合したい。Pypdf2 を使用すると、このコードを使用して次のメッセージが表示されます。

merger.py の 97 行目は次のとおりです。

次のようなコードを使用すると、自分のコードで同様のエラーが発生します

input1 = PdfFileReader(file("document1.pdf", "rb"))- これはhttp://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/からのコピー アンド ペーストです。

0 投票する
1 に答える
922 参照

python - トルコ語文字の python エンコーディング

私はトルコ語の物語であるpdf本を読まなければなりません。pyPdf というライブラリを見つけました。以下のテスト関数が正しくエンコードされません。トルコ語のコーデック パケットが必要だと思います。私が間違っている ?私が間違っている場合、この問題を解決するにはどうすればよいですか? または、このトルコ語コーデック パケットを見つけるにはどうすればよいですか?

0 投票する
1 に答える
2633 参照

pdf - PDFの透かしの位置を検出する

私はubuntuにいます。

ページがグリッドに分割された pdf ファイルがあります。グリッドの各ブロックには、候補者の名前/年齢/生年月日/写真が含まれています。一部のレコードには「失格」の透かしがあります

別のリストに不適格な候補者を含めて、彼のpdfをスクレイピングする必要があります。pyPdf を使用して個々のレコードを取得できましたが、透かし入りの候補も含まれています。

透かしを検出する方法は?透かしの座標を取得できる場合、どのように候補と一致させることができますか?

私は python pyPdf 以外のソリューションを受け入れています