問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PDFからの抽出を支援するためにOS Xのプレビューアプリは何をしますか?
pdfminerに基づくプログラムを使用して 12 ページの pdf ファイルからコンテンツを抽出すると、11 ページしかない間違った結果が得られました。他のファイルでテストしたところ、ほとんどの場合、正しい結果が得られました。
うっかりOS X Yosemite(v10.10.4)のプレビューアプリで開いてしまい、そのまま保存してしまいました。その後、プログラムから得た結果は正しかった。このファイルのサイズがプレビューで 2m から 300k に変更されていることがわかりましたが、それが何をしたのかわかりません。
私は答えを探してみましたが、ほとんどのトピックはプレビューアプリのエクスポート機能を使用してpdfファイルを圧縮することに関するものであり、誰もpdfminerでも同じ問題に遭遇していないようです.
1、「保存」すると、プレビューアプリはPDFファイルで何をしますか?
2、どうすれば問題に対処できますか?
前もって感謝します!
python - Pythonを使用してダブルカラムpdfを単語に変換するには?
私のプロジェクトでは、pdf を 2 列形式に変換する必要があります。基本的に、それらをテキスト ファイルに変換する必要があり、使用しましpdfminer
たが、順序が完全に混乱しています (ダブル カラム、つまり、IEEE 論文の場合)。2 列の単語 (docx) ファイルを docx を使用してテキストに変換しようとしましたが、少なくともテキスト (表や方程式ではなく) ではほぼ問題なく動作します。そのため、一部のオンライン ツール (viz、Nitro Cloud) で行われているように、完全な順序を維持しながら、最初に pdf を単語に変換できるかどうかを考えています。しかし、python プログラミング/python パッケージを使用してこの変換を行う必要があります。
誰か洞察を教えてください。pdfminer を使用したコード (最初に試したもの)。
(pdf サンプル: http://www.iracst.org/ijacea/papers/vol2no62013/1vol2no6.pdf .)
python - PDFMiner - pdf2txt.py 解析テキストの順序が正しくありません
一般的なプログラミングではありませんが、私はpythonとpdfminerの両方に慣れていません。Windows 7 と cygwin で Python 2.7 を使用しています。
PDFから特定の情報を抽出するスクリプトをbeautifulsoupで書いています。そのために、pdf2txt を使用して、この pdf の .txt ファイルと .html ファイルの両方を作成し、テストに使用しました。通常のコマンドのみ:
python pdf2txt.py -o output.txt 入力.pdf
python pdf2txt.py -o 出力.html 入力.pdf
どちらも同じ問題を抱えています。テキストの一部の行が乱れて表示されます。この pdf で pdf2txt を実行すると、私の言いたいことがわかります: (編集: 元のサイトを見つけました。) このページのアメリカ領サモアのものです: https://www.iamovers.org/ResourcesPublications/ShipperGuides.aspx?navItemNumber =580
たとえば、これは pdf のページ 1 の 1 つのセクションの正しいレイアウトです。
必要書類
パスポートのコピー (3299 に記載されている家族全員のパスポートが必要な港もあります)
Form CF-3299
Supplemental Declaration (ほとんどの港で必要)
英語の詳細な目録
ビザのコピー (非米国市民/永住者の場合) / 永住権のコピー居住者カード
I-94 スタンプ /
船荷証券 (OBL) / 航空貨物運送状 (AWB) のカード コピー
DS-1504 (外交官)
A-1 ビザ (外交官)
輸入業者セキュリティ ファイリング (ISF)
これは、pdf2txt.py を使用した txt と html の両方の変換で得られる方法です。
必要書類
パスポートのコピー (3299 に記載されている家族全員のパスポートが必要な港もあります)
Form CF-3299
Supplemental Declaration (ほとんどの港で必要)
英語の詳細な目録
ビザのコピー (非米国市民/永住者の場合) / 永住権のコピー在留カード船荷証券 (OBL) / 航空運送状 (AWB) のコピー
DS-1504 フォーム (外交官)
A-1 ビザ (外交官)輸入者セキュリティ ファイリング (ISF)
I-94 スタンプ・カード
何らかの理由で、文字「I」で始まる行は常にその場所から取り出され、次の空白行または前の空白行に配置されます。他のいくつかのキャラクターも同様に発生し続けています。
この問題をここに投稿しました: https://github.com/euske/pdfminer/issues/121
それはpdfminerの問題でなければなりません。パッケージに変更を加えるのに十分なほどPythonをまだよく知りません。これを修正する方法を知っている人はいますか?
python - pdfquery で正規表現を使用することは可能ですか?
正規表現を使用して pdf 内のテキストを検出できますか (pdfquery または別のツールを使用)?
私たちはこれを行うことができることを知っています:
しかし、次のようなものが必要です。
python - 引数をpdf2txt関数に渡す
PDFMiner を使用して PDF ファイルからテキストを抽出しようとしています。スクリプト pdf2txt.py を使用してサンプルの例を実行したかった
http://www.unixuser.org/~euske/python/pdfminer/index.html
この一行で
IDLEを使用してWindowsで作業しているため、IDLE内で次のスクリプトを実行します
それが私にくれたたびに
使用方法: C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P パスワード] [-o 出力] [-C] [-n] [-A ] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F box_flow] [-Y layout_mode] [-O output_dir] [-R rotation] [-t text|html|xml|tag ] [-c コーデック] [-s スケール] ファイル ...
引数が解析されなかったことを知らせるエラー メッセージであることはわかっています。pdf2txt.py の最初の数行は次のとおりです。
引数を作成するためにどのようにフォーマットできますか? ばかげた質問であることはわかっていますが、気が狂いそうになります。
私を助けてください!
ありがとう、
ジェイソン
アップデート
ルイスのアドバイスに従って、コマンドを次のように変更しました
シェル ウィンドウで出力を生成できるようになりましたが、出力ファイル「simple1.html」が見つかりません。次のコマンドを試しました。
それらのどれも機能せず、指定したフォルダーにファイルを生成しませんでした。
python - PDFMiner で文字 ID 160 が Unicode として認識されないのはなぜですか?
PDFMinerを使用して .pdf ファイルを .xml ファイルに変換しています。
.pdf ファイル内の単語ごとに、PDFMiner はそれが Unicode であるかどうかをチェックします (他の多くのものの中でも特に)。そうである場合は文字を返し、そうでない場合は例外を発生させ、文字列 "(cid:%d)" を返します。ここで、%d は文字 ID であり、これは Unicode Decimal だと思います。
これは、この質問の編集部分でよく説明されています: What is this (cid:51) in the output of pdf2txt? . 便宜上、ここにコードを報告します。
通常、キリル文字で記述された .pdf ファイルに対してこの例外が発生します。ただし、平易な英語を使用するファイルが 1 つあります。このファイルでは、非改行スペース (cid=160 を持つ) に対してこの例外が発生します。同じファイル内の他のすべての文字が Unicode として認識されるのに、なぜこの文字が認識されないのかわかりません。
同じ環境でisinstance(u'160', unicode)
コンソールで実行すると、 PDFMiner 内で実行するとTrue
(明らかに) 同等のコマンドが返されます。False
デバッグすると、フォントが正しく認識されていることがわかります。つまり、次のようになります。
PDFMiner はコーデックをパラメーターとして受け入れます。私は utf-8 を選択しました。これは、改行なしのスペース ( http://dev.networkerror.org/utf8/ )の Unicode Decimal として 160 を持っています。
それが役立つ場合は、to_unichr のコードを次に示します。
コードによって認識される文字マップを設定/変更する方法はありますか?
cid=160 で例外が発生しないようにするには、何を変更する必要があると思いますか、またはどこを調査する必要があると思いますか?
python - PDF マイナー PDFEncryptionError
PDFファイルからテキストを抽出しようとしていて、後で参照を特定しようとしています。私はpdfminer 20140328を使用しています。暗号化されていないファイルではうまく動作しますが、次のファイルを取得しました:
ファイル「C:\Tools\Python27\lib\site-packages\pdfminer\pdfdocument.py」、348 行目、_initialize_password
raise PDFEncryptionError('不明なアルゴリズム: param=%r' % param)
pdfminer.pdfdocument.PDFEncryptionError: 不明なアルゴリズム: param={'CF': {'StdCF': {'長さ': 16、'CFM': /AESV2、'AuthEvent': /DocOpen}}、'O': '} \xe2>\xf1\xf6\xc6\x8f\xab\x1f"O\x9bfc\xcd\x15\xe09~2\xc9\\x87\x03\xaf\x17f>\x13\t^K\x99', ' Filter': /Standard, 'P': -1548, 'Length': 128, 'R': 4, 'U': 'Kk>\x14\xf7\xac\xe6\x97\xb35\xaby!\x04| \x18(\xbfN^Nu\x8aAd\x00NV\xff\xfa\x01\x08', 'V': 4, 'StmF': /StdCF, 'StrF': /StdCF}
pdfinfo で確認したところ、このファイルは AES 暗号化されているようですが、問題なく開くことができます。だから私は2つの質問があります:
最初に: ドキュメントが暗号化されているのに、パスワードなしで開くことができるのはどうしてですか?
第二に、PDFMinerにそのファイルを適切に読み取らせるにはどうすればよいですか? どこかでpycryptoをインストールして追加のアルゴリズムを取得することを読みましたが、問題は解決しませんでした。
どうもありがとう。