“pdfminer”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1181 参照

python - Python 3 Pdfinterp (Pdfminer) の以前の CStringIO および String IO 関数の回避策

私はpdfminerツールを使用してpdfを.csv（テキスト）に変換していますが、ツールのサブコマンドの1つは、pdfinterp.py文字列から文字列への変換にCStringIOとStringIOを引き続き使用しています-

私は Python 3 を使用しているので、io と io.StringIO に変更する必要があることを認識しています。

pdfinterp上記のコマンドを Python 3 で機能させるには、どのように正確に言い換える必要がありますか。

2016-09-13T17:59:14.597

0 投票する

1 に答える

134 参照

ios - pdfminer bbox座標をiOS画面に変換

私はpdfの単語bbox座標を抽出してiPadの画面座標に変換する必要があるiPadアプリケーションプロジェクトを迅速に行っています。目標は、単語が触れられていることを検出できるようにすることです。

私はwebviewを使用してpdfを表示しており、pythonでpdfminerライブラリを使用して単語bboxを抽出しています(文字bboxを抽出し、単語間のスペースを区切って単語を取得できます)。しかし、pdfminer の単語座標を iOS 画面に変換する方法がわかりません。

必要に応じて、さらに説明したり、コードやスクリーンショットを追加したりできます。どんな助けでも大歓迎です！

ios swift pdfminer

2016-09-23T01:58:42.810

0 投票する

0 に答える

1485 参照

python - UTF-8 にエンコードする PDFMiner

PDFMinerを使用してPDFをテキストに変換しています。次に、テキストがヘブライ語であるため、 UTF-8にエンコードしたいと思います。

これは PDFMiner のコードです。

今私がそれを印刷しようとすると：

「car」ではなく「rac」のようにテキストが逆になりますが、ヘブライ語です。

どうすれば修正できますか?

tuple slicing を試してみましたが、メール本文と電話番号本文が逆になってしまうので、仕方ありません。

また、オプションではありません:(

python python-2.7 pdfminer

2016-09-28T09:29:43.447

0 投票する

5 に答える

36862 参照

python-3.x - Pdfminer python 3.5

いくつかのチュートリアルを実行しましたが、このコードブロックを実行することができません。必要な StringIO から BytesIO への切り替えを行いました (そう思いますか?)

「バナナ」が何も出力しない理由がわかりません。エラーは赤いニシンであると思いますか? それは、python2.7 のチュートリアルに従って、それを python3 に翻訳しようとしている私と関係がありますか?

脚本

このバリアントでも同じことが起こります。

私はこれを検索しようとしました（pdfminerコードのほとんどはthisまたはthisからのものです）が、運がありません。

どんな洞察も高く評価されます。

乾杯

python-3.x pdf text extract pdfminer

2016-10-04T14:24:27.767

0 投票する

5 に答える

8992 参照

python - PDFminer: PDFTextExtractionNotAllowed エラー

インターネットからこすり落とした PDF からテキストを抽出しようとしていますが、それらをダウンロードしようとするとエラーが発生します。

私はstackoverflowをチェックしましたが、このエラーが発生した他の誰かが、PDFがパスワードで保護されていることを発見しました。ただし、Mac のプレビューから PDF にアクセスできます。

いずれにせよ、プレビューは保護された pdf を表示する可能性があると誰かが言ったので、Adobe Acrobat Reader でファイルを開いても、pdf にアクセスできました。

以下は、私が PDF をダウンロードしているサイトの例です: http://www.sophia-project.org/uploads/1/3/9/5/13955288/aristotle_firstprinciples.pdf

PDFを手動で開き、PDFとして同じファイルパスに再エクスポートすると（基本的に元のファイルを「新しい」ファイルに置き換える）、そこからテキストを抽出できることがわかりました。サイトからダウンロードすることと関係があると思います。次のように、単に urllib を使用して pdf をダウンロードしています。

また、ファイルを新しいファイルパスに書き直そうとしましたが、それでも同じエラーが発生しました。

最後に、テキストを抽出するために使用している関数を次に示します。

プレビューでファイルを手動で再エクスポートするのではなく、プログラムでこれを解決する方法はありますか?

python pdf text nlp pdfminer

2016-10-11T16:18:16.853

0 投票する

6 に答える

5920 参照

python - struct.error: unpack には長さ 16 の文字列引数が必要です

pdfminer (pdf2txt.py) でPDFファイル (2.pdf)を処理しているときに、次のエラーを受け取りました。

同様のファイル (1.pdf)は問題を引き起こしません。

エラーに関する情報が見つかりません。pdfminer GitHub リポジトリにイシューを追加しましたが、未回答のままでした。なぜこれが起こっているのか誰かが私に説明できますか? 2.pdfを解析するにはどうすればよいですか?

更新: GitHub リポジトリから直接pdfminer をインストールした後ではBytesIOなく、同様のエラーが発生します。StringIO

python pdf pdftotext pdfminer pdf-parsing

2016-10-20T15:28:22.280

0 投票する

1 に答える

16548 参照

python - Python で PDF 内のテキストを強調表示する

PDF データコーパスのカスタム検索エンジンに取り組んでいます。

PDFコンテンツをテキストにダンプできる変換レイヤーがあります（Apache TikaとGROBIDを使用）。検索レイヤーと検索結果リストを返すビューが完成しました。

ここで、元の PDF に、検索語が表示された行の強調表示機能を追加したいと思います。はい、必要に応じて PDF ファイルを変更します。

PDFファイル内のテキストを強調表示する方法はありますか? PDFMinerまたはPyPDF2または他のPythonライブラリはそれを行うことができますか?

...または、他の外部サービスをお勧めできますか?

python pdf search pypdf pdfminer

2016-10-27T15:18:25.670

問題タブ [pdfminer]

Reference