問題タブ [pypdf]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

315 問題

0 投票する

1 に答える

1720 参照

python - pyPdf: 不正な UTF-16 サロゲート

pyPdf を壊す pdf ファイルがあります: http://tovotu.de/tests/test.pdf

サンプルスクリプトは次のとおりです。

エラー出力はこちら: http://pastebin.com/0m38zhjQ

GitHub の PyPDF2 を使用した場合も同様のエラーが発生します。pdftk は、この pdf を他の pdf と同じように処理できます。書き込みは失敗しますが、読み取りは問題なく動作するようです。

少なくとも、そのエラーの原因となっている pdf の正確な部分を教えていただけますか? 回避策はさらに良いでしょう:)

2013-03-28T02:41:16.777

0 投票する

3 に答える

20728 参照

python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出

pdfMiner を使用して pdf ファイルのテキストを解析しようとしていますが、抽出されたテキストがマージされます。以下のリンクのpdfファイルを使用しています。

PDFファイル

私はあらゆるタイプの出力 (ファイル/文字列) を得意としています。抽出されたテキストを文字列として返すコードを次に示しますが、何らかの理由で列がマージされます。

PyPdf2 も試しましたが、同じ問題に直面しました。PyPDF2 のサンプルコードは次のとおりです。

pdf2txt.pyも試しましたが、フォーマットされた出力を取得できません。

python pypdf pdftotext

2013-04-01T04:54:37.370

0 投票する

1 に答える

2312 参照

python - Python 3 での PDF の結合

Python 3 で動作する PDF 操作モジュールはありますか? Pypdf を試してみましたが、PIP でインストールしようとするとエラーが発生します。PDFファイルを結合したい。Pypdf2 を使用すると、このコードを使用して次のメッセージが表示されます。

merger.py の 97 行目は次のとおりです。

次のようなコードを使用すると、自分のコードで同様のエラーが発生します

input1 = PdfFileReader(file("document1.pdf", "rb"))- これはhttp://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/からのコピーアンドペーストです。

python pdf python-3.x pypdf

2013-04-11T18:20:18.677

0 投票する

1 に答える

922 参照

python - トルコ語文字の python エンコーディング

私はトルコ語の物語であるpdf本を読まなければなりません。pyPdf というライブラリを見つけました。以下のテスト関数が正しくエンコードされません。トルコ語のコーデックパケットが必要だと思います。私が間違っている？私が間違っている場合、この問題を解決するにはどうすればよいですか? または、このトルコ語コーデックパケットを見つけるにはどうすればよいですか?

python python-2.7 pypdf

2013-05-22T16:22:36.967

0 投票する

1 に答える

2633 参照

pdf - PDFの透かしの位置を検出する

私はubuntuにいます。

ページがグリッドに分割された pdf ファイルがあります。グリッドの各ブロックには、候補者の名前/年齢/生年月日/写真が含まれています。一部のレコードには「失格」の透かしがあります

別のリストに不適格な候補者を含めて、彼のpdfをスクレイピングする必要があります。pyPdf を使用して個々のレコードを取得できましたが、透かし入りの候補も含まれています。

透かしを検出する方法は？透かしの座標を取得できる場合、どのように候補と一致させることができますか?

私は python pyPdf 以外のソリューションを受け入れています

pdf watermark pypdf

2013-06-09T19:25:54.877

1 2 3 4 5 6 7 8 9 10

問題タブ [pypdf]

python - pyPdf: 不正な UTF-16 サロゲート

python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出

python - Python 3 での PDF の結合

python - トルコ語文字の python エンコーディング

pdf - PDFの透かしの位置を検出する

Reference