問題タブ [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 空白を含むpdfminerを使用してpdfを抽出する
SOで何度も議論されているpdfからテキストを抽出しようとしていますが、単語間の空白を保持してpdfを抽出することはできません。
産むのはどれですか:
'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)スペースグループは大規模な\n\nさまざまな優れた機能特性に起因する注目を集めていますsu
しかし、pdf2txt.py
ターミナルで直接使用すると、次のようになります。
私は出力を得ています:
論文
pubs.acs.org/accounts
新しい非中心対称材料の合理的な設計に向けて: フレームワーク構造に影響を与える要因
カン・ミンオク*
中央大学化学科、84 Heukseok-ro、Tongjak-gu、Seoul 06974、Republic of Korea
CONSPECTUS: 拡張構造を持つ固体材料は、多くの興味深い構造関連特性を明らかにしました。なかでも、非中心対称(NCS)空間群で結晶化する物質は、さまざまな優れた機能特性に起因する大きな注目を集めています su
これが望ましい出力です。
Pythonスクリプトで間違っていることがわかりません。助けてください。
python - コピー&ペーストと同じレイアウトのPDFファイルからデータを取得する
PDFファイルから一連のテーブルを取得することを含む、自動化しようとしている手順があります。現在、任意のビューアー (Adobe、Sumatra、okular など) でファイルを開き、Ctrl+A、Ctrl+C、Ctrl+V をメモ帳に入力するだけで、各行を適切な位置に揃えることができます。正規表現を実行し、後で必要な場合に備えてコピーして Excel に貼り付けるだけで十分な形式です。
Pythonでこれをやろうとしたとき、私はさまざまなモジュールを試しました.PDFminerは、この例を使用して動作するメインのモジュールです。ただし、データは単一の列で返されます。他のオプションには、単にhtml table として取得することも含まれますが、この場合、解析をより複雑にする余分な分割を中間テーブルに追加したり、最初のページと 2 番目のページの間で列を切り替えたりすることさえあります。
今のところ一時的な解決策が機能していますが、おそらくパーサーのコアオプションが欠けているか、PDFレンダラーの方法の基本的なオプションを検討する必要があるときに、車輪を再発明しているのではないかと心配しています.これを解決するために働きます。
それにアプローチする方法から何かアイデアはありますか?
python - pdfminer で複数のファイルを変換する
pdfminer
Python のモジュールを使用して、複数の pdf ファイルをテキスト ファイルに変換できるコードをオンラインで見つけました。ディレクトリに保存したいくつかの pdf ファイルのコードを展開しようとしましたが、コードはエラーになります。
これまでの私のコード:
エラーメッセージ: