問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python 3 Pdfinterp (Pdfminer) の以前の CStringIO および String IO 関数の回避策
私はpdfminerツールを使用してpdfを.csv(テキスト)に変換していますが、ツールのサブコマンドの1つは、pdfinterp.py
文字列から文字列への変換にCStringIOとStringIOを引き続き使用しています-
私は Python 3 を使用しているので、io と io.StringIO に変更する必要があることを認識しています。
pdfinterp
上記のコマンドを Python 3 で機能させるには、どのように正確に言い換える必要がありますか。
ios - pdfminer bbox座標をiOS画面に変換
私はpdfの単語bbox座標を抽出してiPadの画面座標に変換する必要があるiPadアプリケーションプロジェクトを迅速に行っています。目標は、単語が触れられていることを検出できるようにすることです。
私はwebviewを使用してpdfを表示しており、pythonでpdfminerライブラリを使用して単語bboxを抽出しています(文字bboxを抽出し、単語間のスペースを区切って単語を取得できます)。しかし、pdfminer の単語座標を iOS 画面に変換する方法がわかりません。
必要に応じて、さらに説明したり、コードやスクリーンショットを追加したりできます。どんな助けでも大歓迎です!
python - UTF-8 にエンコードする PDFMiner
PDFMinerを使用してPDFをテキストに変換しています。次に、テキストがヘブライ語であるため、 UTF-8にエンコードしたいと思います。
これは PDFMiner のコードです。
今私がそれを印刷しようとすると:
「car」ではなく「rac」のようにテキストが逆になりますが、ヘブライ語です。
どうすれば修正できますか?
tuple slicing を試してみましたが、メール本文と電話番号本文が逆になってしまうので、仕方ありません。
また、オプションではありません:(
python-3.x - Pdfminer python 3.5
いくつかのチュートリアルを実行しましたが、このコード ブロックを実行することができません。必要な StringIO から BytesIO への切り替えを行いました (そう思いますか?)
「バナナ」が何も出力しない理由がわかりません。エラーは赤いニシンであると思いますか? それは、python2.7 のチュートリアルに従って、それを python3 に翻訳しようとしている私と関係がありますか?
脚本
このバリアントでも同じことが起こります。
私はこれを検索しようとしました(pdfminerコードのほとんどはthisまたはthisからのものです)が、運がありません。
どんな洞察も高く評価されます。
乾杯
python - PDFminer: PDFTextExtractionNotAllowed エラー
インターネットからこすり落とした PDF からテキストを抽出しようとしていますが、それらをダウンロードしようとするとエラーが発生します。
私はstackoverflowをチェックしましたが、このエラーが発生した他の誰かが、PDFがパスワードで保護されていることを発見しました。ただし、Mac のプレビューから PDF にアクセスできます。
いずれにせよ、プレビューは保護された pdf を表示する可能性があると誰かが言ったので、Adobe Acrobat Reader でファイルを開いても、pdf にアクセスできました。
以下は、私が PDF をダウンロードしているサイトの例です: http://www.sophia-project.org/uploads/1/3/9/5/13955288/aristotle_firstprinciples.pdf
PDFを手動で開き、PDFとして同じファイルパスに再エクスポートすると(基本的に元のファイルを「新しい」ファイルに置き換える)、そこからテキストを抽出できることがわかりました。サイトからダウンロードすることと関係があると思います。次のように、単に urllib を使用して pdf をダウンロードしています。
また、ファイルを新しいファイルパスに書き直そうとしましたが、それでも同じエラーが発生しました。
最後に、テキストを抽出するために使用している関数を次に示します。
プレビューでファイルを手動で再エクスポートするのではなく、プログラムでこれを解決する方法はありますか?
python - struct.error: unpack には長さ 16 の文字列引数が必要です
pdfminer (pdf2txt.py) でPDFファイル (2.pdf)を処理しているときに、次のエラーを受け取りました。
同様のファイル (1.pdf)は問題を引き起こしません。
エラーに関する情報が見つかりません。pdfminer GitHub リポジトリにイシューを追加しましたが、未回答のままでした。なぜこれが起こっているのか誰かが私に説明できますか? 2.pdfを解析するにはどうすればよいですか?
更新: GitHub リポジトリから直接pdfminer をインストールした後ではBytesIO
なく、同様のエラーが発生します。StringIO
python - Python で PDF 内のテキストを強調表示する
PDF データ コーパスのカスタム検索エンジンに取り組んでいます。
PDFコンテンツをテキストにダンプできる変換レイヤーがあります(Apache TikaとGROBIDを使用)。検索レイヤーと検索結果リストを返すビューが完成しました。
ここで、元の PDF に、検索語が表示された行の強調表示機能を追加したいと思います。はい、必要に応じて PDF ファイルを変更します。
PDFファイル内のテキストを強調表示する方法はありますか? PDFMinerまたはPyPDF2または他のPythonライブラリはそれを行うことができますか?
...または、他の外部サービスをお勧めできますか?