問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pdfminerをライブラリとして使用するにはどうすればよいですか
pdfminerを使用してPDFからテキストデータを取得しようとしています。pdfminerコマンドラインツールpdf2txt.pyを使用して、このデータを.txtファイルに正常に抽出できます。私は現在これを行ってから、Pythonスクリプトを使用して.txtファイルをクリーンアップしています。pdf抽出プロセスをスクリプトに組み込み、ステップを節約したいと思います。
このリンクを見つけたとき、私は何かに取り組んでいると思いましたが、どの解決策でも成功しませんでした。新しいバージョンのpdfminerを使用しているため、おそらくそこにリストされている関数を再度更新する必要があります。
ここに示した機能も試してみましたが、うまくいきませんでした。
私が試したもう1つのアプローチは、を使用してスクリプト内でスクリプトを呼び出すことでしたos.system
。これも失敗しました。
Pythonバージョン2.7.1とpdfminerバージョン20110227を使用しています。
python - python PDFminerはページの一部のみを解析します
pdfminer
モジュールpython モジュールを使用して PDF ドキュメントを解析しています。このドキュメントからテキストを抽出したいだけです。
プロセスは順調に進んでいますが、オブジェクトを抽出LTText*
すると、そのオブジェクト内のすべてのテキストを取得していないことに気付きLTText*
ます。内部バッファなどを持っているようで、ページごとにテキストが切り取られます。
私のコード:
pdf ファイルのページ内のこのテキストが常に同じ形式である場合でも、text_obj 変数にテキスト全体が含まれることはありません。
pdf2txt.pyスクリプトを使用してpdfファイルをtxtに変換し、結果のtxtファイルのページも「カット」されているため、問題はコードにあるとは思いません。
問題は pdfminer 構成または私の pdf ファイル形式にあるようです... 私は完全に迷っています。
何か案は?
python - PDFMiner - ページを反復してテキストに変換する
そのため、いくつかの PDF から特定のテキストを取得しようとしています。PDFMiner で Python を使用していますが、2013 年 11 月に API が変更されたため、問題が発生しています。基本的に、PDF から必要なテキストの部分を取得するには、現在、ファイル全体をテキストに変換してから、文字列関数を使用して必要な部分を取得する必要があります。私がやりたいことは、PDF の各ページをループし、それぞれを 1 つずつテキストに変換することです。次に、必要な部分を見つけたら、その PDF の読み取りを停止します。
テキスト エディター atm にあるコードを投稿しますが、これは動作するバージョンではなく、効率的なソリューションの半分に近いバージョンです :P
これは古い方法です(または、少なくとも古い方法でそれを行った方法のアイデア、スレッドは私にとってあまり役に立ちませんでした)。しかし、今では PDFDocument.get_pages の代わりに PDFPage.get_pages を使用する必要があり、メソッドとその引数は完全に異なります。
現在、「Klass」変数が一体何なのかを理解しようとしていますが、これは PDFPage の get_pages メソッドに渡されます。
誰かが API のこの部分に光を当てたり、実際の例を提供したりできれば、とても感謝しています。
google-app-engine - PyDev PDFMiner GAE: ImportError: pdfminer.converter という名前のモジュールがありません
PyDev で GAE プロジェクトに取り組んでいます。pdf ファイルをテキスト ファイルに変換するために PDFminer ライブラリを使用したいと考えています。
私の問題は、アプリケーションを実行すると動作せず、次のエラーメッセージが表示されることです: ImportError: No module named pdfminer.converter
通常の python プロジェクトで同じコードをテストしたところ、正常に動作しました。Pythonコンソールで同じコードを使用しましたが、それも機能します
pdfminerフォルダーをpythonインタープリターに追加し、インタープリターを削除して再度追加しましたが、常に同じエラーが発生します。
本当に私がしなければならないことはありません。誰か助けてくれませんか?
linux - その場所に従ってPDFからテキストを抽出する方法は?
複数の PDF があり、最初のページの特定の領域からテキストを抽出したいと考えています。したがって、PDF 内のテキストの境界ボックスの座標がある場合、コマンド ラインを使用してそのテキストを抽出するにはどうすればよいでしょうか。
少し調べてみたところ、PDFMiner と PDFBox でこれができることがわかりました。しかし、PDFMiner の文書化は非常に不十分です。
PDFMinerを使用してこれを行う方法を教えてもらえますか? または、他の解決策を提案できますか?
PS: Linux ターミナルを使用しています。
python - PDFファイルからテキストとテキスト座標を抽出する方法は?
PDFMiner を使用して、PDF ファイルからすべてのテキスト ボックスとテキスト ボックスの座標を抽出したいと考えています。
他の多くのスタック オーバーフローの投稿では、すべてのテキストを順序どおりに抽出する方法について説明していますが、テキストとテキストの場所を取得する中間ステップをどのように行うことができますか?
PDF ファイルを指定すると、出力は次のようになります。
python - PDFMiner でフォントを抽出できない
私はPDFMinerを使用していくつかのpdfレポートをプレーンテキストに変換しています.私の入力pdfの束は、いくつかの認識された行と、このような(cid:%d)のリストで出てきます...
検査報告
(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9) (cid:10)(cid:9)(cid:11)(cid:9) (cid:12)(cid:9)(cid:5)(cid:13)(cid:9) (cid:14)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12) (cid:17)(cid:18)(cid:13)(cid:19)(cid:20) (cid:21)(cid:8)(cid:22)(cid:23) (cid:18)(cid:12)(cid:6)(cid:22)(cid:24) (cid:25)(cid:5)(cid:26)(cid:27)(cid:9) (cid:13)(cid:22)(cid:6)(cid:18)(cid:5) (cid:5)(cid:8)(cid:15)(cid:16)(cid:9) (シド:12)
調べてみると、ドキュメントの大部分が抽出に抵抗しているフォントにあることが問題だと思います。フォントが一晩で変わるように見えたので、問題のデバッグはちょっと奇妙でした (方法は聞かないでください、ただ変更しただけです)。
何が重要なのかはわかりませんが、今日、フォントには次のプロパティがあります。
name = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map = 'UnicodeMap: /Adobe-Identity-UCS' - unicode_map.cid2unichr = {}
Macで2.7を使用していて、いくつか試しました
- PyPDF2
- テキストエディットにコピペ(文字は空欄)
- cmaps の再構築によるアンインストールと再インストール
- 本機の電源を入れ直す
参考までに、レポートはすべて同様の形式であり、そのうちの 1 つがここにあります。
http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf
この問題は、2010 年 9 月より前に発行されたすべてのレポートに適用されます。