問題タブ [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1181 参照

python - Python 3 Pdfinterp (Pdfminer) の以前の CStringIO および String IO 関数の回避策

私はpdfminerツールを使用してpdfを.csv(テキスト)に変換していますが、ツールのサブコマンドの1つは、pdfinterp.py文字列から文字列への変換にCStringIOとStringIOを引き続き使用しています-

私は Python 3 を使用しているので、io と io.StringIO に変更する必要があることを認識しています。

pdfinterp上記のコマンドを Python 3 で機能させるには、どのように正確に言い換える必要がありますか。

0 投票する
1 に答える
134 参照

ios - pdfminer bbox座標をiOS画面に変換

私はpdfの単語bbox座標を抽出してiPadの画面座標に変換する必要があるiPadアプリケーションプロジェクトを迅速に行っています。目標は、単語が触れられていることを検出できるようにすることです。

私はwebviewを使用してpdfを表示しており、pythonでpdfminerライブラリを使用して単語bboxを抽出しています(文字bboxを抽出し、単語間のスペースを区切って単語を取得できます)。しかし、pdfminer の単語座標を iOS 画面に変換する方法がわかりません。

必要に応じて、さらに説明したり、コードやスクリーンショットを追加したりできます。どんな助けでも大歓迎です!

0 投票する
0 に答える
1485 参照

python - UTF-8 にエンコードする PDFMiner

PDFMinerを使用してPDFをテキストに変換しています。次に、テキストがヘブライ語であるため、 UTF-8にエンコードしたいと思います。

これは PDFMiner のコードです。

今私がそれを印刷しようとすると:

「car」ではなく「rac」のようにテキストが逆になりますが、ヘブライ語です。

どうすれば修正できますか?

tuple slicing を試してみましたが、メール本文と電話番号本文が逆になってしまうので、仕方ありません。

また、オプションではありません:(

0 投票する
5 に答える
36862 参照

python-3.x - Pdfminer python 3.5

いくつかのチュートリアルを実行しましたが、このコード ブロックを実行することができません。必要な StringIO から BytesIO への切り替えを行いました (そう思いますか?)

「バナナ」が何も出力しない理由がわかりません。エラーは赤いニシンであると思いますか? それは、python2.7 のチュートリアルに従って、それを python3 に翻訳しようとしている私と関係がありますか?

脚本

このバリアントでも同じことが起こります。

私はこれを検索しようとしました(pdfminerコードのほとんどはthisまたはthisからのものです)が、運がありません。

どんな洞察も高く評価されます。

乾杯

0 投票する
5 に答える
8992 参照

python - PDFminer: PDFTextExtractionNotAllowed エラー

インターネットからこすり落とした PDF からテキストを抽出しようとしていますが、それらをダウンロードしようとするとエラーが発生します。

私はstackoverflowをチェックしましたが、このエラーが発生した他の誰かが、PDFがパスワードで保護されていることを発見しました。ただし、Mac のプレビューから PDF にアクセスできます。

いずれにせよ、プレビューは保護された pdf を表示する可能性があると誰かが言ったので、Adobe Acrobat Reader でファイルを開いても、pdf にアクセスできました。

以下は、私が PDF をダウンロードしているサイトの例です: http://www.sophia-project.org/uploads/1/3/9/5/13955288/aristotle_firstprinciples.pdf

PDFを手動で開き、PDFとして同じファイルパスに再エクスポートすると(基本的に元のファイルを「新しい」ファイルに置き換える)、そこからテキストを抽出できることがわかりました。サイトからダウンロードすることと関係があると思います。次のように、単に urllib を使用して pdf をダウンロードしています。

また、ファイルを新しいファイルパスに書き直そうとしましたが、それでも同じエラーが発生しました。

最後に、テキストを抽出するために使用している関数を次に示します。

プレビューでファイルを手動で再エクスポートするのではなく、プログラムでこれを解決する方法はありますか?

0 投票する
6 に答える
5920 参照

python - struct.error: unpack には長さ 16 の文字列引数が必要です

pdfminer (pdf2txt.py) でPDFファイル (2.pdf)を処理しているときに、次のエラーを受け取りました。

同様のファイル (1.pdf)は問題を引き起こしません。

エラーに関する情報が見つかりません。pdfminer GitHub リポジトリにイシューを追加しましたが、未回答のままでした。なぜこれが起こっているのか誰かが私に説明できますか? 2.pdfを解析するにはどうすればよいですか?


更新: GitHub リポジトリから直接pdfminer をインストールした後ではBytesIOなく、同様のエラーが発生します。StringIO

0 投票する
1 に答える
16548 参照

python - Python で PDF 内のテキストを強調表示する

PDF データ コーパスのカスタム検索エンジンに取り組んでいます。

PDFコンテンツをテキストにダンプできる変換レイヤーがあります(Apache TikaとGROBIDを使用)。検索レイヤーと検索結果リストを返すビューが完成しました。

ここで、元の PDF に、検索語が表示された行の強調表示機能を追加したいと思います。はい、必要に応じて PDF ファイルを変更します。

PDFファイル内のテキストを強調表示する方法はありますか? PDFMinerまたはPyPDF2または他のPythonライブラリはそれを行うことができますか?

...または、他の外部サービスをお勧めできますか?