問題タブ [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
8 に答える
41121 参照

python - How to unlock a "secured" (read-protected) PDF in Python?

In Python I'm using pdfminer to read the text from a pdf with the code below this message. I now get an error message saying:

When I open this pdf with Acrobat Pro it turns out it is secured (or "read protected"). From this link however, I read that there's a multitude of services which can disable this read-protection easily (for example pdfunlock.com. When diving into the source of pdfminer, I see that the error above is generated on these lines.

Since there's a multitude of services which can disable this read-protection within a second, I presume it is really easy to do. It seems that .is_extractable is a simple attribute of the doc, but I don't think it is as simple as changing .is_extractable to True..

Does anybody know how I can disable the read protection on a pdf using Python? All tips are welcome!

================================================

Below you will find the code with which I currently extract the text from non-read protected.

0 投票する
1 に答える
1375 参照

python - PDFMiner - ページを文字列のリストとしてエクスポート

リストがドキュメント全体であり、文字列がPDFのページである文字列のリストとしてpdfからテキストをエクスポートしようとしています。私はこのタスクに PDFMiner を使用していますが、非常に複雑で締め切りが迫っています。

これまでのところ、完全なpdfを文字列として抽出するコードを取得しましたが、文字列のリストの形式で必要です。

私のコードは次のとおりです

助けてください。

0 投票する
1 に答える
287 参照

python - PDFスクレイピング:Pythonでスクレイピングされた各pdfのtxtファイルの作成を自動化する方法は?

私がやりたいことは次のとおりです。pdfファイルのリストを入力として受け取り、リストの各ファイルに対して1つの.txtファイルを返すプログラム。

たとえば、listA = ["file1.pdf", "file2.pdf", "file3.pdf"] が与えられた場合、Python に 3 つの txt ファイル (pdf ファイルごとに 1 つ) を作成させたいとします。たとえば、"file1.txt" とします。 「file2.txt」と「file3.txt」。

こいつのおかげで変換部分がスムーズに動くようになった。私が行った唯一の変更は、最初のページのみを抽出するために 0 ではなく 1 を割り当てた maxpages ステートメントです。私が言ったように、私のコードのこの部分は完全に機能しています。これがコードです。

問題は、2 番目の段落で述べたように、Python に返してもらうことができないように見えることです。私は次のコードを試しました:

入力として 2 つの pdf ファイルのリストを使用してその保存機能を実行しましたが、1 つの txt ファイルしか生成されず、2 番目の txt ファイルを生成せずに数分間実行し続けました。目標を達成するためのより良いアプローチは何ですか?

0 投票する
1 に答える
2150 参照

pdf - ToUnicode マップが原因で、PDF テキスト抽出で間違った文字が返される

PDFMiner を使用して外国語の PDF ファイルからテキストを抽出しようとしていますが、ToUnicode ステートメントによって失敗しています。このファイルは、通常の PDF ビューアでも奇妙な動作をします。

たとえば、ファイル内の一部のテキストのスクリーンショットを次に示します。

正しいテキスト

しかし、テキストを選択してコピーすると、次のようになります。

िनरि</p>

いくつかの文字、特に最後から 2 番目の文字が変更されていることがわかります。

当然のことながら、PDFMiner は間違ったテキストを抽出します。しかし、どの PDF ビューアでもこれらのデータを正しく表示できます。問題は、ToUnicode マップか、文字が結合されたものであると思われます。目的の文字は、0x915、0x94D、0x937 のシーケンスである必要があります。PDFMiner は、別の文字を表す 0x915 のみを報告します。

PDFMiner がテキストを正しく抽出するには、つまり、コピーして貼り付けたテキストではなく画像のようにするにはどうすればよいですか?

問題の PDF へのリンクを次に示します。

0 投票する
2 に答える
2283 参照

python - PythonはPDFをセクションで読む

各ページがフォームの情報の 3x3 ブロックに分割されている pdf ファイルを読み込もうとしています

各エントリは複数の行に分かれています。1 つのエントリの単純化された例は、このカードです。しかし、他の 8 つのスロットには同様のカードが存在します。A、B、C の順に読めるようになりたいです。ただし、A、B、および C の 1 行目を読んでから、A、B、および C の 2 行目を読んだら、生き残ることができます。私が探しているものに合うもの。ここでの答えはかなりうまく機能しますが、
列の順序は日常的に歪んでいます。

0 投票する
1 に答える
3789 参照

python - PythonはPDFページの一部を読み取ります

各ページがフォームの情報の 3x3 ブロックに分割されている pdf ファイルを読み込もうとしています

各エントリは複数の行に分かれています。1 つのエントリの単純化された例は、このカードです。しかし、他の 8 つのスロットにも同様のエントリがあります。

私はpdfminerとpypdf2を見てきました。私は pdfminer があまり便利だとは思いませんでしたが、pypdf2 はそれに近いものを与えてくれました。

ただし、これはファイルを 1 行ずつ読み取るだけです。A、B、C の順に読めるように、ページの一部だけを読み取れるソリューションが必要です。また、ここでの答えはかなりうまく機能しますが、
列の順序は日常的に歪んでおり、行ごとに読むことしかできませんでした。

0 投票する
1 に答える
827 参照

python - PDFMiner 3k を実行するコードとして何を使用すればよいですか?

PDFMiner 3k を使用したい、Windows で python 3.3.3 を使用している、PFDMiner 3k を使用するためにどのような手順を記述すればよいかわかりません。多くのコードを試しましたが、まだ機能しません。そのうちのいくつかはたとえば、PDFMiner(python 2.7)の場合、次のコードを試しました:

スクリプトのファイルを、PDFMiner 3k のディレクトリを含むディレクトリに配置したことに注意してください。後者は pdfminer という名前です。

次のエラーが表示されます:

何か提案はありますか?、助けが必要です。

0 投票する
0 に答える
2615 参照

python - ドキュメント オブジェクトの作成時に Python PDFMiner で予期しない EOF を取得する

PDFMiner を使用してディレクトリ内の PDF ファイルを解析しようとしています。ここに含まれるドキュメントから最初のスクリプトを複製することから始めています。コード (以下で繰り返されます) はファイルを開き、パーサー オブジェクトを作成しますが、ドキュメント オブジェクトを作成しようとすると「予期しない EOF」エラーが発生します。これが事実である理由を理解するための助けをいただければ幸いです。具体的には、この方法で解析できない PDF の種類はありますか?

これにより、次のエラーが発生します。

編集:ここでの質問に関連して、問題は xref テーブルにあると示唆する人もいます。そのエラー トレースには「予期しない EOF」とは記載されておらず、「EOF マーカーが見つかりません」と記載されているため、納得できません。このような解決策は、基本的に、現在存在する Python パッケージは PDF ファイル標準である混乱を解析するのには適していないという点で有効である可能性があります。