問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 一部の PDF で Python テキスト抽出が機能しない
URLからPDFを読み込もうとしています。多くのスタックオーバーフローの提案に従い、PyPdf2 FileReader を使用して PDF からテキストを抽出しました。私のコードは次のようになります:
最初のリンクのテキストを正常に抽出できました。しかし、2番目のpdfに同じプログラムを使用すると. 私はテキストを取得しません。ページ番号とドキュメント情報が表示されるようです。
ターミナルを介して Pdfminer からテキストを抽出しようとしたところ、2 番目の pdf からテキストを抽出できました。
PDFの何が問題なのか、または私が使用しているライブラリに欠点がありますか?
python - PDFminer 行をスキップするか、文字列行を誤って配置します
PDF ファイルを読み取るプログラムを開発しましたが、それらを読み取るために使用しているツール (PDFminer) がテキストを誤って配置するか、まったく配置しないように見えることに気付きました。出力は非常に明確で正確なようです。間隔と行のジャンプが考慮されるため、出力は元の PDF のように見えます。ただし、いくつかの行をスキップしているように見え (私がチェックしたファイルで 1 回発生)、行を誤って配置しました (誤って配置された行が他の 10 のパターンを持つドキュメントで 2 回発生したため、なぜこれらの 2 つだけでしょうか?)
行を取得するコードは次のとおりです。
何か案は?または誰かがこの問題に直面していますか?この問題について調査しましたが、結果はありません。おそらく他のツール(pyPdf2など)を使用したアプローチ
python - フォルダー内のすべてのファイルに対してコマンドを実行する Python スクリプト
PDFをテキストに変換するために、次のコマンドを使用しています:
pdf2txt.py -o text.txt example.pdf # It will convert example.pdf to text.txt
しかし、最初にテキストファイルに変換してから分析を行う必要がある1000を超えるpdfファイルがあります。
このコマンドを使用して pdf ファイルを反復処理し、それらすべてを変換する方法はありますか?
pdf - Python3.4 による PDF テキスト抽出
PDF ファイル内のテキストはテキスト形式であり、スキャンされていません。PDFMiner は python3 をサポートしていません。他の解決策はありますか?
python-2.7 - Pythonを使用してPDFファイルを読み取る
通常のpdfドキュメントに変換されたpdfフォームがあります(print2pdfソフトウェアを使用)。同じものからデータを抽出するつもりですが、そうする方法はありますか?
私は現在 pdfminer を使用していますが、ユーザーが入力したデータを抽出するのではなく、他のすべてのデータを抽出する傾向があります。
pdf2txt.py PDFFormconvertedintoPDF.pdf
私が望むものを達成するのに役立つ代替アプローチはありますか?
python - コマンドを実行していないpdf2txt.py
コマンド ラインで pdf2txt.py を使用すると、ソース ファイルが開き、コマンドが実行されません。パッケージをインストールしたばかりで、実行できませんでした。たとえば、次のコマンドを入力します。
コマンドを入力すると、ファイル pdf2txt.py が開き、コマンドは実行されません。誰もこれに遭遇したことがありますか?私は何を間違っていますか?
Windowsコマンドプロンプトを使用しています。どんな助けでも大歓迎です。
python - PDF のテキストが表示されているかどうかを伝える
pdfminerライブラリを使用していくつかの PDF ファイルを解析しています。
ドキュメントがスキャンされたドキュメントであるかどうかを知る必要があります。スキャン マシンは、スキャンした画像を一番上に配置し、OCR で抽出したテキストを背景に配置します。
OCR マシンが選択のためにページにテキストを配置するため、テキストが表示されているかどうかを識別する方法はありますか。
一般に、問題は 2 つの非常に異なるが類似したケースを区別することです。
あるケースでは、スキャンされたドキュメントの画像がページの大部分を占め、その後ろにOCR テキストがあります。
画像が切り捨てられたテキストとしての PDF は次のとおりです: http://pastebin.com/a3nc9ZrG
他のケースでは、ページの大部分を覆う背景画像があり、その前にテキストがあります。
それらを区別することは、私にとって難しいことがわかっています。
python - テキスト インデックスを使用して PDF ファイルから特定のデータを取得し、特定します。
商品の複数の異なる出荷に関する情報を示す PDF ファイルを解析しています。データには、住所、商品の金額などが含まれます。各ファイルの実体を構成するテキストの文字列を取得することに成功しました。ファイルの表示は比較的一貫していますが、HTML や XML などのデータを簡単に見つけることはできません。まず、アイテムの数を取得しようとしています。テキストには、部分文字列「<code>TOTAL BOXES:」のインスタンスが複数あります。それぞれの後に整数があります (したがって、次のようになります: “<code>TOTAL BOXES: 3”)
以下のコード (一番下まで) に見られるように、私の方法は次のとおりです。
- キー フレーズ「<code>TOTAL BOXES:」のインスタンスを見つけます。
- 「<code>TOTAL BOXES:」</li> の各インスタンスのインデックスを検索
- この部分文字列の最後の文字のインデックス (この場合は「<code>:」) を使用して、2 文字のインデックス位置を「<code>move forward」してデータを取得します。
おそらくもっと洗練された解決策があると思います。しかし、現在、私が選択したアプローチの主な障害は次のとおりです。
キー フレーズの各インデックスをリスト内の項目として返すことができます。次に、そのインデックスに 2 を加算して、「バックエンド」インデックスを取得します。対象となるデータを提供するテキスト内の正確なインデックスまたは各場所がわかりました。各インデックスは、変数の下にリスト アイテムとして格納されますinstance_begin
。
これは私のコードがばらばらになり、私の初心者が明るく輝く場所です. データを取得するために、私はこれを行います:
instance_begin のボックスの場合:
例外を返します:
TypeError: リストのインデックスはリストではなく整数でなければなりません
助けていただければ幸いです。
コード: