問題タブ [pypdf]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

315 問題

0 投票する

2 に答える

2248 参照

python - Pythonで空白を含むpdfを抽出することは可能ですか?

Javaとpdfboxを使用してPDFを抽出するツールが作成された後、PythonでPDFを抽出しようとしました。

Java 実装は同じ pdf で成功しましたが、pdfminer と pypdf の両方と pypdf2 がスペースを含む行ごとに pdf を抽出できないため、python で同じことを行うのに苦労しています。特に、pdfminer pdf2txt は、何らかの奇妙な理由で pdf を 3 列に分割してから、行ごとに読み取ります。

私が得た最も近いものは、残念ながらスペースを保持しないスタックオーバーフローの質問の実装を使用することでした. 両方とも数値を持つ変数があるため、それらをテキスト形式で復元することはできません。

これを考えると、Pythonで行ごとに空白を含むpdfを抽出することは可能ですか?

2013-06-16T04:38:39.070

0 投票する

1 に答える

3225 参照

python - pypdfがpdfからテーブルを抽出しない

pypdf を使用して、pdf ファイルからテキストを抽出しています。問題は、pdf ファイル内の表が抽出されないことです。pdfminer も使用してみましたが、同じ問題が発生しています。

python pypdf

2013-07-08T09:27:35.640

0 投票する

1 に答える

1344 参照

python - pdf への情報の追加、PyPDF2 のマージが遅すぎる

PDFの各ページにテキストが必要です。このテキストは、最終的なドキュメントで赤く表示されるように見える html コードです<p style="color: #ff0000">blabla</p>。それを pdf (html2pdf lib) に変換してから、それを (PyPDF2 lib) 私の pdf の各ページにマージします。...しかし、マージは非常に遅いです!

私の質問は次のとおりです:PyPDF2のpage.mergePageメソッドよりもpdfをマージするより速い方法はありますか? (または、この PDF にテキストを追加するより速い方法はありますか?)

ありがとう！(Windows 8 で python 2.7.5 を使用)

python python-2.x pypdf

2013-08-07T14:12:42.047

0 投票する

0 に答える

663 参照

javascript - PDFにJavascriptを埋め込んでリンクを強制的に新しいウィンドウで開く

Web アプリの特定のページに表示される PDF を生成しています。PDF は、ページ内の iframe に表示されます。Acrobat がインストールされている Internet Explorer でユーザーがいずれかの PDF 内のリンクをクリックすると、リンクが iframe に読み込まれ、ユーザーエクスペリエンスが損なわれます。

私が達成したいのは、Javascript を PDF に埋め込んで、PDF でクリックされたリンクが新しいウィンドウで開かれるようにすることです。PDFに次のコードを埋め込んでみました：

結果の PDF では、引き続きリンクがその場で開かれます。PyPDF2のユーティリティ関数を使用して、Javascript を PDF 内に埋め込みます。

また、iframe 内から新しいウィンドウで PDF からのリンクを開くことができない可能性があることにも気付きました。

javascript pdf pdf-generation pypdf

2013-08-07T16:24:59.953

0 投票する

0 に答える

773 参照

python - pdfminer トリミングされた pdf のテキストを抽出します。非表示のコンテンツは必要ありません。テキストを抽出するにはどうすればよいですか

トリミングされた PDF からテキストを抽出します。python pdfminer を使用してテキストを抽出しようとすると、ページ全体になります。耕作地にはありません。トリミングされた領域のテキストのみが必要です。

ヒントを教えてください。

ありがとう、ウメッシュ

python pypdf

2013-10-01T06:30:24.190

0 投票する

1 に答える

406 参照

python - libから例を実行しようとするとpyPDF2 TypeError

ここから pyPDF2 lib を入手しました: https://github.com/mstamy2/PyPDF2/tree/Python3-3

そこからスクリプト「例 1:」を実行しようとすると、次のようになります。

なにが問題ですか？

python python-3.x pypdf

2013-10-04T10:28:54.143

1 2 3 4 5 6 7 8 9 10

問題タブ [pypdf]

python - Pythonで空白を含むpdfを抽出することは可能ですか?

python - pypdfがpdfからテーブルを抽出しない

python - pdf への情報の追加、PyPDF2 のマージが遅すぎる

javascript - PDFにJavascriptを埋め込んでリンクを強制的に新しいウィンドウで開く

python - pdfminer トリミングされた pdf のテキストを抽出します。非表示のコンテンツは必要ありません。テキストを抽出するにはどうすればよいですか

python - libから例を実行しようとするとpyPDF2 TypeError

Reference