“pdfminer”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

35 参照

python - PDFからの抽出を支援するためにOS Xのプレビューアプリは何をしますか?

pdfminerに基づくプログラムを使用して 12 ページの pdf ファイルからコンテンツを抽出すると、11 ページしかない間違った結果が得られました。他のファイルでテストしたところ、ほとんどの場合、正しい結果が得られました。

うっかりOS X Yosemite(v10.10.4)のプレビューアプリで開いてしまい、そのまま保存してしまいました。その後、プログラムから得た結果は正しかった。このファイルのサイズがプレビューで 2m から 300k に変更されていることがわかりましたが、それが何をしたのかわかりません。

私は答えを探してみましたが、ほとんどのトピックはプレビューアプリのエクスポート機能を使用してpdfファイルを圧縮することに関するものであり、誰もpdfminerでも同じ問題に遭遇していないようです.

1、「保存」すると、プレビューアプリはPDFファイルで何をしますか?

2、どうすれば問題に対処できますか?

前もって感謝します！

2015-08-25T09:49:13.877

0 投票する

0 に答える

609 参照

python - Pythonを使用してダブルカラムpdfを単語に変換するには?

私のプロジェクトでは、pdf を 2 列形式に変換する必要があります。基本的に、それらをテキストファイルに変換する必要があり、使用しましpdfminerたが、順序が完全に混乱しています (ダブルカラム、つまり、IEEE 論文の場合)。2 列の単語 (docx) ファイルを docx を使用してテキストに変換しようとしましたが、少なくともテキスト (表や方程式ではなく) ではほぼ問題なく動作します。そのため、一部のオンラインツール (viz、Nitro Cloud) で行われているように、完全な順序を維持しながら、最初に pdf を単語に変換できるかどうかを考えています。しかし、python プログラミング/python パッケージを使用してこの変換を行う必要があります。

誰か洞察を教えてください。pdfminer を使用したコード (最初に試したもの)。

(pdf サンプル: http://www.iracst.org/ijacea/papers/vol2no62013/1vol2no6.pdf .)

python pdf pdfminer

2015-09-09T05:33:39.770

0 投票する

1 に答える

4442 参照

python - PDFMiner - pdf2txt.py 解析テキストの順序が正しくありません

一般的なプログラミングではありませんが、私はpythonとpdfminerの両方に慣れていません。Windows 7 と cygwin で Python 2.7 を使用しています。

PDFから特定の情報を抽出するスクリプトをbeautifulsoupで書いています。そのために、pdf2txt を使用して、この pdf の .txt ファイルと .html ファイルの両方を作成し、テストに使用しました。通常のコマンドのみ：

python pdf2txt.py -o output.txt 入力.pdf

python pdf2txt.py -o 出力.html 入力.pdf

どちらも同じ問題を抱えています。テキストの一部の行が乱れて表示されます。この pdf で pdf2txt を実行すると、私の言いたいことがわかります: (編集: 元のサイトを見つけました。) このページのアメリカ領サモアのものです: https://www.iamovers.org/ResourcesPublications/ShipperGuides.aspx?navItemNumber =580

たとえば、これは pdf のページ 1 の 1 つのセクションの正しいレイアウトです。

必要書類

パスポートのコピー (3299 に記載されている家族全員のパスポートが必要な港もあります)
Form CF-3299
Supplemental Declaration (ほとんどの港で必要)
英語の詳細な目録
ビザのコピー (非米国市民/永住者の場合) / 永住権のコピー居住者カード
I-94 スタンプ /
船荷証券 (OBL) / 航空貨物運送状 (AWB) のカードコピー
DS-1504 (外交官)
A-1 ビザ (外交官)
輸入業者セキュリティファイリング (ISF)

これは、pdf2txt.py を使用した txt と html の両方の変換で得られる方法です。

必要書類

パスポートのコピー (3299 に記載されている家族全員のパスポートが必要な港もあります)
Form CF-3299
Supplemental Declaration (ほとんどの港で必要)
英語の詳細な目録
ビザのコピー (非米国市民/永住者の場合) / 永住権のコピー在留カード

船荷証券 (OBL) / 航空運送状 (AWB) のコピー
DS-1504 フォーム (外交官)
A-1 ビザ (外交官)

輸入者セキュリティファイリング (ISF)

I-94 スタンプ・カード

何らかの理由で、文字「I」で始まる行は常にその場所から取り出され、次の空白行または前の空白行に配置されます。他のいくつかのキャラクターも同様に発生し続けています。

この問題をここに投稿しました: https://github.com/euske/pdfminer/issues/121

それはpdfminerの問題でなければなりません。パッケージに変更を加えるのに十分なほどPythonをまだよく知りません。これを修正する方法を知っている人はいますか？

python python-2.7 pdf pdfminer

2015-09-21T07:02:12.973

0 投票する

1 に答える

916 参照

python - pdfquery で正規表現を使用することは可能ですか?

正規表現を使用して pdf 内のテキストを検出できますか (pdfquery または別のツールを使用)?

私たちはこれを行うことができることを知っています:

しかし、次のようなものが必要です。

python regex pdfminer

2015-10-13T19:57:32.897

0 投票する

0 に答える

375 参照

python - PDFMiner はリストデータを誤ってスタックしますか?

PDFMiner を使用して一貫した方法で PDF から情報を抽出しようとしているので、さらに分析を行うことができますが、表形式のデータを正しく抽出する方法がわかりません。PDF Miner は、行の前に列を抽出するようです。誰かがこの問題を解決したか、最初に行を抽出する方法を知っていますか? それをhtmlに抽出しようとしましたが、同じ問題に遭遇しました。どんな助けでも大歓迎です。

実際のpdfからの画像：

抽出されたバージョンの画像

抽出に使用したコードは次のとおりです。

python pdf tabular pdfminer pdf-extraction

2015-10-17T17:56:52.113

0 投票する

1 に答える

2065 参照

python - 引数をpdf2txt関数に渡す

PDFMiner を使用して PDF ファイルからテキストを抽出しようとしています。スクリプト pdf2txt.py を使用してサンプルの例を実行したかった

http://www.unixuser.org/~euske/python/pdfminer/index.html

この一行で

IDLEを使用してWindowsで作業しているため、IDLE内で次のスクリプトを実行します

それが私にくれたたびに

使用方法: C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P パスワード] [-o 出力] [-C] [-n] [-A ] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F box_flow] [-Y layout_mode] [-O output_dir] [-R rotation] [-t text|html|xml|tag ] [-c コーデック] [-s スケール] ファイル ...

引数が解析されなかったことを知らせるエラーメッセージであることはわかっています。pdf2txt.py の最初の数行は次のとおりです。

引数を作成するためにどのようにフォーマットできますか? ばかげた質問であることはわかっていますが、気が狂いそうになります。

私を助けてください！

ありがとう、

ジェイソン

アップデート

ルイスのアドバイスに従って、コマンドを次のように変更しました

シェルウィンドウで出力を生成できるようになりましたが、出力ファイル「simple1.html」が見つかりません。次のコマンドを試しました。

それらのどれも機能せず、指定したフォルダーにファイルを生成しませんでした。

python python-2.7 command-line-arguments python-idle pdfminer

2015-10-24T03:03:28.243

0 投票する

3 に答える

2977 参照

python - PDFMiner で文字 ID 160 が Unicode として認識されないのはなぜですか?

PDFMinerを使用して .pdf ファイルを .xml ファイルに変換しています。

.pdf ファイル内の単語ごとに、PDFMiner はそれが Unicode であるかどうかをチェックします (他の多くのものの中でも特に)。そうである場合は文字を返し、そうでない場合は例外を発生させ、文字列 "(cid:%d)" を返します。ここで、%d は文字 ID であり、これは Unicode Decimal だと思います。

これは、この質問の編集部分でよく説明されています: What is this (cid:51) in the output of pdf2txt? . 便宜上、ここにコードを報告します。

通常、キリル文字で記述された .pdf ファイルに対してこの例外が発生します。ただし、平易な英語を使用するファイルが 1 つあります。このファイルでは、非改行スペース (cid=160 を持つ) に対してこの例外が発生します。同じファイル内の他のすべての文字が Unicode として認識されるのに、なぜこの文字が認識されないのかわかりません。

同じ環境でisinstance(u'160', unicode)コンソールで実行すると、 PDFMiner 内で実行するとTrue(明らかに) 同等のコマンドが返されます。False

デバッグすると、フォントが正しく認識されていることがわかります。つまり、次のようになります。

PDFMiner はコーデックをパラメーターとして受け入れます。私は utf-8 を選択しました。これは、改行なしのスペース ( http://dev.networkerror.org/utf8/ )の Unicode Decimal として 160 を持っています。

それが役立つ場合は、to_unichr のコードを次に示します。

コードによって認識される文字マップを設定/変更する方法はありますか?

cid=160 で例外が発生しないようにするには、何を変更する必要があると思いますか、またはどこを調査する必要があると思いますか?

python pdf utf-8 python-unicode pdfminer

2015-12-05T17:38:00.497

0 投票する

3 に答える

5399 参照

python - PDF マイナー PDFEncryptionError

PDFファイルからテキストを抽出しようとしていて、後で参照を特定しようとしています。私はpdfminer 20140328を使用しています。暗号化されていないファイルではうまく動作しますが、次のファイルを取得しました:

ファイル「C:\Tools\Python27\lib\site-packages\pdfminer\pdfdocument.py」、348 行目、_initialize_password

raise PDFEncryptionError('不明なアルゴリズム: param=%r' % param)

pdfminer.pdfdocument.PDFEncryptionError: 不明なアルゴリズム: param={'CF': {'StdCF': {'長さ': 16、'CFM': /AESV2、'AuthEvent': /DocOpen}}、'O': '} \xe2>\xf1\xf6\xc6\x8f\xab\x1f"O\x9bfc\xcd\x15\xe09~2\xc9\\x87\x03\xaf\x17f>\x13\t^K\x99', ' Filter': /Standard, 'P': -1548, 'Length': 128, 'R': 4, 'U': 'Kk>\x14\xf7\xac\xe6\x97\xb35\xaby!\x04| \x18(\xbfN^Nu\x8aAd\x00NV\xff\xfa\x01\x08', 'V': 4, 'StmF': /StdCF, 'StrF': /StdCF}

pdfinfo で確認したところ、このファイルは AES 暗号化されているようですが、問題なく開くことができます。だから私は2つの質問があります：

最初に: ドキュメントが暗号化されているのに、パスワードなしで開くことができるのはどうしてですか?
第二に、PDFMinerにそのファイルを適切に読み取らせるにはどうすればよいですか? どこかでpycryptoをインストールして追加のアルゴリズムを取得することを読みましたが、問題は解決しませんでした。

どうもありがとう。

python pdf encryption pdfminer

2015-12-18T14:19:53.773

問題タブ [pdfminer]

Reference