問題タブ [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyPdf: 不正な UTF-16 サロゲート
pyPdf を壊す pdf ファイルがあります: http://tovotu.de/tests/test.pdf
サンプル スクリプトは次のとおりです。
エラー出力はこちら: http://pastebin.com/0m38zhjQ
GitHub の PyPDF2 を使用した場合も同様のエラーが発生します。pdftk は、この pdf を他の pdf と同じように処理できます。書き込みは失敗しますが、読み取りは問題なく動作するようです。
少なくとも、そのエラーの原因となっている pdf の正確な部分を教えていただけますか? 回避策はさらに良いでしょう:)
python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出
pdfMiner を使用して pdf ファイルのテキストを解析しようとしていますが、抽出されたテキストがマージされます。以下のリンクのpdfファイルを使用しています。
私はあらゆるタイプの出力 (ファイル/文字列) を得意としています。抽出されたテキストを文字列として返すコードを次に示しますが、何らかの理由で列がマージされます。
PyPdf2 も試しましたが、同じ問題に直面しました。PyPDF2 のサンプル コードは次のとおりです。
pdf2txt.pyも試しましたが、フォーマットされた出力を取得できません。
python - Python 3 での PDF の結合
Python 3 で動作する PDF 操作モジュールはありますか? Pypdf を試してみましたが、PIP でインストールしようとするとエラーが発生します。PDFファイルを結合したい。Pypdf2 を使用すると、このコードを使用して次のメッセージが表示されます。
merger.py の 97 行目は次のとおりです。
次のようなコードを使用すると、自分のコードで同様のエラーが発生します
input1 = PdfFileReader(file("document1.pdf", "rb"))
- これはhttp://www.blog.pythonlibrary.org/2012/07/11/pypdf2-the-new-fork-of-pypdf/からのコピー アンド ペーストです。
python - トルコ語文字の python エンコーディング
私はトルコ語の物語であるpdf本を読まなければなりません。pyPdf というライブラリを見つけました。以下のテスト関数が正しくエンコードされません。トルコ語のコーデック パケットが必要だと思います。私が間違っている ?私が間違っている場合、この問題を解決するにはどうすればよいですか? または、このトルコ語コーデック パケットを見つけるにはどうすればよいですか?
pdf - PDFの透かしの位置を検出する
私はubuntuにいます。
ページがグリッドに分割された pdf ファイルがあります。グリッドの各ブロックには、候補者の名前/年齢/生年月日/写真が含まれています。一部のレコードには「失格」の透かしがあります
別のリストに不適格な候補者を含めて、彼のpdfをスクレイピングする必要があります。pyPdf を使用して個々のレコードを取得できましたが、透かし入りの候補も含まれています。
透かしを検出する方法は?透かしの座標を取得できる場合、どのように候補と一致させることができますか?
私は python pyPdf 以外のソリューションを受け入れています