問題タブ [pypdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python を使用して 2 つの PDF リストを 1 対 1 で結合する
ESRI ArcMap 10 のデータ ドリブン ページを使用して、一連の PDF ドキュメント (マップ) を作成しました。個別の *.mxd から生成されたマップごとに、ページ 1 とページ 2 があります。したがって、各マップのページ 1 を含む PDF ドキュメントのリストと、各マップのページ 2 を含む PDF ドキュメントのリストが 1 つあります。例: Map1_001.pdf、map1_002.pdf、map1_003.pdf...map2_001.pdf、map2_002.pdf、map2_003.pdf...など。
これらのマップ、ページ 1 と 2 を一緒に追加して、ページ 1 と 2 の両方がマップごとに 1 つの PDF にまとめられるようにしたいと思います。例: mapboth_001.pdf、mapboth_002.pdf、mapboth_003.pdf... (新しい pdf ファイル (mapboth) に入れる必要はありません。map1 に追加しても問題ありません)
各 map1_ *.pdf ディレクトリを調べて、ファイル名の数字 (* がある場所) が一致する場所に map2_ *.pdf を追加します。
Pythonを使用してそれを行う方法が必要です。たぶん、arcpy、os.walk または os.listdir、および pyPdf と for ループの組み合わせでしょうか?
os.walk(datadirectory) の pdf の場合:
何か案は?ご協力いただきありがとうございます。
python - pyPdfはPDFファイルの改行を無視します
PDFの各ページを文字列として抽出しようとしています。
しかし、このスクリプトは改行文字を無視し、次のような厄介な文字列を残しますinformation concerning an individual which, because of name, identifyingnumber, mark or description(つまり、これはでidentifying numberはなく、と読む必要がありますidentifyingumber)。
これが私が解析しようとしているPDFのタイプの例です。
python - PDF 抽出から空白がなくなり、奇妙な単語の解釈
以下のスニペットを使用して、このPDF ファイルからテキスト データを抽出しようとしました。
しかし、私が得た出力には、ほとんどの単語の間に空白がありません。これにより、テキストに対して自然言語処理を実行することが難しくなります (私の最終的な目標はここにあります)。
また、「finger」という単語の「fi」は、一貫して別のものとして解釈されます。この論文は自発的な指の動きに関するものなので、これはかなり問題です...
なぜこれが起こっているのか誰にも分かりますか?どこから始めればいいのかわからない!
python - Python Web2py webapp で web2py-appreport (xhtmltopdf) を使用して pdf を生成する
私はコーディング以外のバックグラウンドを持っているため、python、web2py は私にとって非常に新しいものです。
私のアプリは、(RTE redactor を使用して) textarea コンテンツを pdf にエクスポートする必要があります。textarea (redactor) から html コンテンツを取得します。pyfpdf を使用して、ボタンのクリックで pdf ファイルを生成する方法を教えてください。
appreport を使用して PDF を生成するために、ビューでボタンをクリックして HTML コンテンツ (画像とテキスト) を取得する方法がわかりません。
app-report を使用して、既存の html ファイル (css なし) から pdf を生成することができました (PISA を使用、PYPDF は機能しません)。html ファイルに css がある場合、エラーがスローされます。
これは、コントローラー コードの誤りが原因である可能性があります。
私が試したもう 1 つのことは、(Javascript で) ajax post を使用して、ビューからコントローラーに html を渡すことでした。Redactor は私が使用している textarea RTE であり、アラートは目的の html 結果を提供します。
意見:
コントローラ:
コーディングに関する知識が少ないため、間違いを見つけて修正することができません。誰かがこの問題で私を助けることができれば、私は感謝します.
よろしく、アカシュ
python - PDFMinerを使用して/RootオブジェクトのないPDFを解析する
PDFMiner pythonバインディングを使用して、多数のPDFからテキストを抽出しようとしています。私が書いたモジュールは多くのPDFで機能しますが、PDFのサブセットでこのやや不可解なエラーが発生します。
ipythonスタックトレース:
もちろん、すぐにこれらのPDFが破損していないかどうかを確認しましたが、問題なく読み取ることができます。
ルートオブジェクトがないにもかかわらず、これらのPDFを読み取る方法はありますか?ここからどこへ行けばいいのかよくわかりません。
どうもありがとう!
編集:
私はいくつかの鑑別診断を得るためにPyPDFを使ってみました。スタックトレースは次のとおりです。
Quonuxは、おそらくPDFMinerが最初のEOF文字に達した後に解析を停止したことを示唆しました。これは別のことを示唆しているように見えますが、私は非常に無知です。何かご意見は?
python - startxrefのpyPDFの不正なxref文字
PDFページの抽出とマージにpyPDFを使用しています。過去に同じpdfファイルでpdfSharpで同じタイプのエラーに遭遇したため、私の問題はpyPDFに完全に依存しているわけではありません。
問題は、ベンダーから受け取った一部の PDF ドキュメントを読み込もうとするとエラーが発生することです。私は彼らに直せとは言えませんので、こちらで対処しなければなりません。現在、私はJavaでiTextを使用してPDFのマージを処理していますが、これらのファイルには問題はありませんが、iTextはpyPDFよりも遅く、維持が困難です。pyPDF には、xref テーブルを読み取るためのセクションがあります。そのセクションには、「xref」で始まる行、数字で始まる行、または「xref」で始まる行のいずれかのオプションがいくつかありますが、x の前に余分な文字がありました。
私の場合、行は「196 0 obj」で始まりますが、次の行は「<< /Length 197 0 R」です。pyPDF と pdfSharp はそれを認識せず、それを相互参照として読み取って例外をスローしようとしています。これを回避するため、またはpyPDFにパッチを当てるために私ができることについて何か提案はありますか? 形式が悪いかもしれませんが、Acrobat や iText と同じように回避する必要があります。
これは、pyPDF ライブラリの pdf.py のセクションです。これは多くのコードですが、重要なビットは、 if x == "x"で始まる一連の if ステートメントです。
注: 私の例では、最後の 3 行でアサート False をスローしています。
python - pyPDF を使用してドキュメントからページ番号を取得する
現時点では、pyPdf を使用して PDF をマージすることを検討していますが、入力が正しい順序でない場合があるため、各ページのページ番号をスクレイピングして、順序を決定することを検討しています (たとえば、誰かが本を 20 個の 10 ページの PDF に分割しましたが、私はそれらを元に戻したいと思っています)。
2 つの質問があります - 1.) Adobe で [1243] (10/150) のようにレンダリングされる PDF を見たことがありますが、ページ番号が文書データのどこかに保存されていることがありますが、この種のドキュメントを pyPDF に変換すると、ページ番号を示す情報が見つかりません。これはどこに保存されていますか?
2.) アベニュー #1 が利用できない場合は、特定のページのオブジェクトを反復してページ番号を見つけようとすることができると思います。おそらく、単一の番号を持つ独自のオブジェクトである可能性があります。ただし、オブジェクトの内容を特定する明確な方法が見つからないようです。私が実行した場合:
これは通常、次のいずれかを返します。
または IndirectObject(num, num) オブジェクトのリストを返します。これらのいずれかをどうするかは本当にわかりません。私が知る限り、実際のドキュメントはありません。私を正しい方向に向けることができるこの種のことに精通している人はいますか?
python - pyPdf:書き込み/結合操作を高速化しますか?
一連の PDF を 1 つの PDF に結合し、外部メタデータを使用して適切に目次を作成する pyPdf アプリケーションがあります。一部のPDFでは非常にうまく機能しますが、他のPDFではハングしているように見え、実際にPDFを書き込むことはありません。書き込み操作をテスト ライブラリにコピーして、ハングしている場所を確認しました。メソッド '_sweepIndirectReferences' でハングしているようです (ここでは 311 行目)。実行を設定し、15 ~ 20 分後に戻ってブレークポイントを設定し、最初のページの間接参照をまだ解決していることを確認します。スタックの深さは 25 ~ 30 です。Acrobat を使用してファイルを結合すると、200 以上のページすべてが 1 分以内に完了します。
書き込み操作をそれほど高速にする必要はありませんが、プロセスを高速化するためにできることはありますか? Adobe なら 1 分以内にできることのように思えますが、私は 4 時間以内にできるはずです! 一部のファイルでのみ発生し、他のファイルでは発生しないことに注意してください。私の推測では、PDF が間接参照にどれだけ依存しているかによって、違いが生じると思います。
参考までに、次のようなpdfを生成しています。
これはブックマークに関する部分を無視していますが、おそらく問題ないと思います。問題のあるものには、ブックマークも何もありません。
python - PyPdf2モジュールをインストールできません
PyPdf2モジュールをインストールしようとして、zipをダウンロードして解凍し、実行python setup.py buildして実行しpython setup.py installましたが、インストールされていないようです。Pythonスクリプトからインポートしようとすると、:が返されますImportError。
助けてください。
私はWindowsXPでPython2.7を使用しています。