問題タブ [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyPDF「PdfFileReader」クラスのファイルハンドルを閉じる方法
これは非常に単純な質問であるはずですが、Google 検索では答えが見つかりませんでした: pyPDF "PdfFileReader" クラスによって開かれたファイル ハンドルを閉じる方法
スニペットは次のとおりです。
エラーが発生する [32]
ありがとう
python - pdfを読んで強調表示された単語を取得するためのpython pypdf
python pypdfを使用してpdfを読み、強調表示された単語を取得する方法は? PDF で不明な単語を強調表示しました。後で参照するためにそれらを抽出したいと考えています。
python - pyPdfを使用して2つのランドスケープPDFページをマージする方法
2つのPDFファイルをpyPdfとマージするのに問題があります。次のコードを実行すると、透かし(page1)は正常に見えますが、page2は時計回りに90度回転しています。
何が起こっているのかアイデアはありますか?
python - Python、pyPdf、Adobe PDF OCR エラー: サポートされていないフィルター /lzwdecode
私のもの:python 2.6 64ビット(pyPdf-1.13.win32.exeがインストールされています)。ウイングIDE。ウィンドウズ7 64ビット。
次のエラーが発生しました。
NotImplementedError: サポートされていないフィルター /LZWDecode
次のコードを実行したとき:
ここで少し背景を説明します。パスはpdfでいっぱいです。一部は、Adobe pdf プリンターを使用してテキスト ドキュメントから保存されたものです (少なくとも、彼らはそのようにしたと思います)。そして、一部は画像としてスキャンされました。それらを分離し、画像のものをOCRしたかった(画像以外のものは完璧で、いじってはいけません)。
私は数日前にここでそれを行う方法を尋ねました:
私が得た唯一の応答はVBであり、Pythonのみを話しました。そこで、自分の質問に対する答えを書こうと思いました。私の戦略 (上記のコードに反映されています) は次のとおりです。それが単なる画像の場合、その正規表現は空のリストを返します。テキストがある場合、正規表現 (2 文字以上の英数字を含む任意の単語) は、u'word' (Python では、これは Unicode 文字列だと思います) のようなものが取り込まれたリストを返します。
したがって、コードは機能するはずであり、オープンソースソフトウェアを使用して他のスレッドを終了する最初のステップを実行できます (イメージ化された pdf から ocrd を分離します) が、このフィルターエラーに対処する方法がわかりません。役に立った。誰かが知っていれば、非常に役に立ちます。
この素材の使い方がよくわかりません。pyPdf speak でのフィルターの意味がわかりません。ocrdであるにもかかわらず、実際にはpdfなどを読み取ることができないと言っていると思います。おかしなことに、非 ocrd の 1 つと ocrd pdf の 1 つを python ファイルと同じフォルダーに入れました。フィルターエラー。以下に単一のコードを投稿します。THX。
そしてそれはものを出力するので、一方ではフィルターエラーが発生し、もう一方ではエラーが発生する理由がわかりません。ディレクトリ内の他のファイル (ocrd ではないファイル) に対してこのコードを実行すると、出力は次のように、ある行に空の文字列が表示され、次の行に空の文字列が表示されます。
[]
[]
したがって、ocrd 以外の pdf のフィルターの問題でもあるとは思いません。これは私の頭の中にあるようで、ここで助けが必要です。
編集:
Google検索でこれが見つかりましたが、どうすればよいかわかりません:
python - Python、pyPdf OCR エラー: pyPdf.utils.PdfReadError: EOF マーカーが見つかりません
pyPdf はこの例外をスローします:
pyPdf.utils.PdfReadError: EOF マーカーが見つかりません
pyPdf を修正する必要はありません。EOF エラーを取得して「except」ブロックを実行し、ファイルをスキップする必要があるだけですが、機能しません。それでもプログラムの実行が停止します。
バックグラウンド:
Python、pyPdf、Adobe PDF OCR エラー: サポートされていないフィルター /lzwdecode
……物語は続く。
フォルダーに10,000個のpdfを取得しました。一部の OCRd とそうでないものがあります。それらを区別することはできません。ステップ1は、どれがOCRdではなく、OCRのみのものかを把握することでした(詳細については、他のスレッドを参照してください)。
だから私はpyPdfを使用しています。テキストを読み取ろうとすると、認識されない文字とサポートされていないフィルターに関連する例外が発生します。したがって、例外がスローされた場合、テキストが含まれているため、リストに表示されないことを推測しました。問題は解決しましたよね?そのようです:
しかし、その後、次のエラーが発生します。
pyPdf.utils.PdfReadError: EOF マーカーが見つかりません
それはたくさん出てくるようです(グーグルから):
http://pdfposter.origo.ethz.ch/node/31
これは、pyPdf がファイルを開き、テキスト処理を試み、何らかの例外を発生させ、except: ブロックを実行したことを意味すると思いますが、次のステップに進むことができません b/c ファイルが終了したことを認識していません.
このような他のスレッドがあり、これは修正されたと主張していますが、修正されていないようです。
次に、誰かが EOF 文字を最初に .pdf に書き込む関数をここに持っています。
http://code.activestate.com/lists/python-list/589529/
これを真似ようとして「pdf.write("%%EOF")」行に行き詰まりましたが、サイコロはありません。
では、例外ブロックを実行するためにそのエラーを取得するにはどうすればよいですか? 私はwing IDEも使用しているため、デバッガーを使用してこれらのファイルをスキップする方法があれば、それも可能です。どうも。
python - python pdfからテキストへの変換
PDFをテキストに変換したい。このコードを python コマンド プロンプトで試しましたが、出力が表示されません。たぶん私は間違っています。どこが間違っているか教えてください。前もって感謝します。
python - pypdfを使用してpdfに文字列を挿入する方法は?
申し訳ありません..私はPythonの初心者です..
既存のpdfファイルを使用せずにpdfファイルを作成する必要があります..(純粋に新しいファイルを作成します)
グーグルがあり、それらの多くは2つのpdfをマージするか、別のファイルの特定のページから新しいファイルのコピーを作成します.. .私が達成したいのは、レポートページ(チャート内)を作成することですが、最初のステップまたは簡単なステップとして、「私のPDFファイルに文字列を挿入する方法は?(こんにちは世界mybe)」..
これは、単一の空白ページで新しい pdf ファイルを作成するための私のコードです
python - Python で既存の PDF のアウトライン/TOC を作成する
pyPdf を使用して、複数の PDF ファイルを 1 つにマージしています。これはうまく機能しますが、生成される PDF ファイルに目次/アウトライン/ブックマークを追加する必要もあります。
pyPdf は、アウトラインの読み取りのみをサポートしているようです。Reportlab ではそれらを作成できますが、オープンソース バージョンでは PDF ファイルの読み込みがサポートされていないため、既存のファイルにアウトラインを追加することはできません。
Python、またはそれを可能にするライブラリを使用して、既存の PDF にアウトラインを追加する方法はありますか?
python - pyPDFを使用して空白ページを削除するPythonスクリプト
pyPDFを使用していくつかのPythonスクリプトを作成し、PDFページを6つの別々のページに分割し、正しく並べ替えて(通常、表と裏に印刷されるため、他のすべてのページのサブページの順序を変える必要があります)、結果の空白ページを削除しようとしています。出力ドキュメントの終わり。
次のスクリプトを作成して、PDFページを切り取り、並べ替えました。各ページを2列に、各列を3ページにカットします。私はPythonの経験があまりないので、正しく行っていないことは許してください。
次に、次のスクリプトを使用して空白のページを削除します。
問題は、ページが目に見えて切り取られている間、テキスト描画コマンドがまだそこにあることであるように思われます。これらのページはいずれもスキャンされないため、空白の場合は実際には空白になります。空白のページを削除するために、私が別の方法で、またはおそらくまったく別の方法で実行できることについて、誰かが考えていることはありますか?助けていただければ幸いです。
python - PythonでPDFファイルを分割します-ValueError:10進数のint()のリテラルが無効です:'' "
私は巨大なpdfファイルをいくつかの小さなpdfusinfpyPdfに分割しようとしています。私はこの過度に単純化されたコードで試していました:
しかし、私は次のエラーメッセージを受け取りました:
何か案は???