問題タブ [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3201 参照

python-3.x - 空白を含むpdfminerを使用してpdfを抽出する

SOで何度も議論されているpdfからテキストを抽出しようとしていますが、単語間の空白を保持してpdfを抽出することはできません。

産むのはどれですか:

'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)スペースグループは大規模な\n\nさまざまな優れた機能特性に起因する注目を集めていますsu

しかし、pdf2txt.pyターミナルで直接使用すると、次のようになります。

私は出力を得ています:

論文

pubs.acs.org/accounts

新しい非中心対称材料の合理的な設計に向けて: フレームワーク構造に影響を与える要因

カン・ミンオク*

中央大学化学科、84 Heukseok-ro、Tongjak-gu、Seoul 06974、Republic of Korea

CONSPECTUS: 拡張構造を持つ固体材料は、多くの興味深い構造関連特性を明らかにしました。なかでも、非中心対称(NCS)空間群で結晶化する物質は、さまざまな優れた機能特性に起因する大きな注目を集めています su

これが望ましい出力です。

Pythonスクリプトで間違っていることがわかりません。助けてください。

0 投票する
2 に答える
1421 参照

python - コピー&ペーストと同じレイアウトのPDFファイルからデータを取得する

PDFファイルから一連のテーブルを取得することを含む、自動化しようとしている手順があります。現在、任意のビューアー (Adobe、Sumatra、okular など) でファイルを開き、Ctrl+A、Ctrl+C、Ctrl+V をメモ帳に入力するだけで、各行を適切な位置に揃えることができます。正規表現を実行し、後で必要な場合に備えてコピーして Excel に貼り付けるだけで十分な形式です。

Pythonでこれをやろうとしたとき、私はさまざまなモジュールを試しました.PDFminerは、この例を使用して動作するメインのモジュールです。ただし、データは単一の列で返されます。他のオプションには、単にhtml table として取得することも含まれますが、この場合、解析をより複雑にする余分な分割を中間テーブルに追加したり、最初のページと 2 番目のページの間で列を切り替えたりすることさえあります。

今のところ一時的な解決策が機能していますが、おそらくパーサーのコアオプションが欠けているか、PDFレンダラーの方法の基本的なオプションを検討する必要があるときに、車輪を再発明しているのではないかと心配しています.これを解決するために働きます。

それにアプローチする方法から何かアイデアはありますか?

0 投票する
2 に答える
1171 参照

python - pdfminer で複数のファイルを変換する

pdfminerPython のモジュールを使用して、複数の pdf ファイルをテキスト ファイルに変換できるコードをオンラインで見つけました。ディレクトリに保存したいくつかの pdf ファイルのコードを展開しようとしましたが、コードはエラーになります。

これまでの私のコード:

エラーメッセージ: