1

SOで何度も議論されているpdfからテキストを抽出しようとしていますが、単語間の空白を保持してpdfを抽出することはできません。

$python3
Python 3.5.2 (default, Sep 14 2016, 11:28:32) 
[GCC 6.2.1 20160901 (Red Hat 6.2.1-1)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import PyPDF2
>>> pdfFileObj = open('/var/tmp/acs%2Eaccounts%2E6b00452.pdf','rb')
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pageObj = pdfReader.getPage(0)
>>> pageObj.extractText()

産むのはどれですか:

'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)スペースグループは大規模な\n\nさまざまな優れた機能特性に起因する注目を集めていますsu

しかし、pdf2txt.pyターミナルで直接使用すると、次のようになります。

$pdf2txt.py '/var/tmp/acs%2Eaccounts%2E6b00452.pdf'| more

私は出力を得ています:

論文

pubs.acs.org/accounts

新しい非中心対称材料の合理的な設計に向けて: フレームワーク構造に影響を与える要因

カン・ミンオク*

中央大学化学科、84 Heukseok-ro、Tongjak-gu、Seoul 06974、Republic of Korea

CONSPECTUS: 拡張構造を持つ固体材料は、多くの興味深い構造関連特性を明らかにしました。なかでも、非中心対称(NCS)空間群で結晶化する物質は、さまざまな優れた機能特性に起因する大きな注目を集めています su

これが望ましい出力です。

Pythonスクリプトで間違っていることがわかりません。助けてください。

4

1 に答える 1