“pdfminer”の関連問題_Stack Overflow日本語サイト

0 投票する

15 に答える

84390 参照

python - pdfminerをライブラリとして使用するにはどうすればよいですか

pdfminerを使用してPDFからテキストデータを取得しようとしています。pdfminerコマンドラインツールpdf2txt.pyを使用して、このデータを.txtファイルに正常に抽出できます。私は現在これを行ってから、Pythonスクリプトを使用して.txtファイルをクリーンアップしています。pdf抽出プロセスをスクリプトに組み込み、ステップを節約したいと思います。

このリンクを見つけたとき、私は何かに取り組んでいると思いましたが、どの解決策でも成功しませんでした。新しいバージョンのpdfminerを使用しているため、おそらくそこにリストされている関数を再度更新する必要があります。

ここに示した機能も試してみましたが、うまくいきませんでした。

私が試したもう1つのアプローチは、を使用してスクリプト内でスクリプトを呼び出すことでしたos.system。これも失敗しました。

Pythonバージョン2.7.1とpdfminerバージョン20110227を使用しています。

2011-04-20T03:50:00.030

0 投票する

2 に答える

1437 参照

python - python PDFminerはページの一部のみを解析します

pdfminerモジュールpython モジュールを使用して PDF ドキュメントを解析しています。このドキュメントからテキストを抽出したいだけです。

プロセスは順調に進んでいますが、オブジェクトを抽出LTText*すると、そのオブジェクト内のすべてのテキストを取得していないことに気付きLTText*ます。内部バッファなどを持っているようで、ページごとにテキストが切り取られます。

私のコード:

pdf ファイルのページ内のこのテキストが常に同じ形式である場合でも、text_obj 変数にテキスト全体が含まれることはありません。

pdf2txt.pyスクリプトを使用してpdfファイルをtxtに変換し、結果のtxtファイルのページも「カット」されているため、問題はコードにあるとは思いません。

問題は pdfminer 構成または私の pdf ファイル形式にあるようです... 私は完全に迷っています。

何か案は？

python parsing pdf pdfminer

2013-11-07T10:11:47.917

0 投票する

2 に答える

7795 参照

python - PDFMiner - ページを反復してテキストに変換する

そのため、いくつかの PDF から特定のテキストを取得しようとしています。PDFMiner で Python を使用していますが、2013 年 11 月に API が変更されたため、問題が発生しています。基本的に、PDF から必要なテキストの部分を取得するには、現在、ファイル全体をテキストに変換してから、文字列関数を使用して必要な部分を取得する必要があります。私がやりたいことは、PDF の各ページをループし、それぞれを 1 つずつテキストに変換することです。次に、必要な部分を見つけたら、その PDF の読み取りを停止します。

テキストエディター atm にあるコードを投稿しますが、これは動作するバージョンではなく、効率的なソリューションの半分に近いバージョンです :P

これは古い方法です（または、少なくとも古い方法でそれを行った方法のアイデア、スレッドは私にとってあまり役に立ちませんでした）。しかし、今では PDFDocument.get_pages の代わりに PDFPage.get_pages を使用する必要があり、メソッドとその引数は完全に異なります。

現在、「Klass」変数が一体何なのかを理解しようとしていますが、これは PDFPage の get_pages メソッドに渡されます。

誰かが API のこの部分に光を当てたり、実際の例を提供したりできれば、とても感謝しています。

python pdf pdfminer

2014-01-14T12:38:46.070

0 投票する

1 に答える

903 参照

google-app-engine - PyDev PDFMiner GAE: ImportError: pdfminer.converter という名前のモジュールがありません

PyDev で GAE プロジェクトに取り組んでいます。pdf ファイルをテキストファイルに変換するために PDFminer ライブラリを使用したいと考えています。

私の問題は、アプリケーションを実行すると動作せず、次のエラーメッセージが表示されることです: ImportError: No module named pdfminer.converter

通常の python プロジェクトで同じコードをテストしたところ、正常に動作しました。Pythonコンソールで同じコードを使用しましたが、それも機能します

pdfminerフォルダーをpythonインタープリターに追加し、インタープリターを削除して再度追加しましたが、常に同じエラーが発生します。

本当に私がしなければならないことはありません。誰か助けてくれませんか?

google-app-engine pydev pdfminer

2014-02-04T21:22:29.343

0 投票する

2 に答える

2167 参照

linux - その場所に従ってPDFからテキストを抽出する方法は?

複数の PDF があり、最初のページの特定の領域からテキストを抽出したいと考えています。したがって、PDF 内のテキストの境界ボックスの座標がある場合、コマンドラインを使用してそのテキストを抽出するにはどうすればよいでしょうか。

少し調べてみたところ、PDFMiner と PDFBox でこれができることがわかりました。しかし、PDFMiner の文書化は非常に不十分です。

PDFMinerを使用してこれを行う方法を教えてもらえますか? または、他の解決策を提案できますか？

PS: Linux ターミナルを使用しています。

linux pdf pdfminer

2014-03-14T21:31:03.143

0 投票する

3 に答える

62364 参照

python - PDFファイルからテキストとテキスト座標を抽出する方法は?

PDFMiner を使用して、PDF ファイルからすべてのテキストボックスとテキストボックスの座標を抽出したいと考えています。

他の多くのスタックオーバーフローの投稿では、すべてのテキストを順序どおりに抽出する方法について説明していますが、テキストとテキストの場所を取得する中間ステップをどのように行うことができますか?

PDF ファイルを指定すると、出力は次のようになります。

python pdf pdfminer

2014-04-06T18:31:04.777

0 投票する

0 に答える

2302 参照

python - PDFMiner でフォントを抽出できない

私はPDFMinerを使用していくつかのpdfレポートをプレーンテキストに変換しています.私の入力pdfの束は、いくつかの認識された行と、このような(cid:%d)のリストで出てきます...

検査報告

(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9) (cid:10)(cid:9)(cid:11)(cid:9) (cid:12)(cid:9)(cid:5)(cid:13)(cid:9) (cid:14)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12) (cid:17)(cid:18)(cid:13)(cid:19)(cid:20) (cid:21)(cid:8)(cid:22)(cid:23) (cid:18)(cid:12)(cid:6)(cid:22)(cid:24) (cid:25)(cid:5)(cid:26)(cid:27)(cid:9) (cid:13)(cid:22)(cid:6)(cid:18)(cid:5) (cid:5)(cid:8)(cid:15)(cid:16)(cid:9) (シド:12)

調べてみると、ドキュメントの大部分が抽出に抵抗しているフォントにあることが問題だと思います。フォントが一晩で変わるように見えたので、問題のデバッグはちょっと奇妙でした (方法は聞かないでください、ただ変更しただけです)。

何が重要なのかはわかりませんが、今日、フォントには次のプロパティがあります。

name = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map = 'UnicodeMap: /Adobe-Identity-UCS' - unicode_map.cid2unichr = {}

Macで2.7を使用していて、いくつか試しました

PyPDF2
テキストエディットにコピペ（文字は空欄）
cmaps の再構築によるアンインストールと再インストール
本機の電源を入れ直す

参考までに、レポートはすべて同様の形式であり、そのうちの 1 つがここにあります。

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

この問題は、2010 年 9 月より前に発行されたすべてのレポートに適用されます。

python pdf fonts pdfminer

2014-04-07T09:32:01.697

問題タブ [pdfminer]

Reference