SOで何度も議論されているpdfからテキストを抽出しようとしていますが、単語間の空白を保持してpdfを抽出することはできません。
$python3
Python 3.5.2 (default, Sep 14 2016, 11:28:32)
[GCC 6.2.1 20160901 (Red Hat 6.2.1-1)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import PyPDF2
>>> pdfFileObj = open('/var/tmp/acs%2Eaccounts%2E6b00452.pdf','rb')
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pageObj = pdfReader.getPage(0)
>>> pageObj.extractText()
産むのはどれですか:
'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)スペースグループは大規模な\n\nさまざまな優れた機能特性に起因する注目を集めていますsu
しかし、pdf2txt.py
ターミナルで直接使用すると、次のようになります。
$pdf2txt.py '/var/tmp/acs%2Eaccounts%2E6b00452.pdf'| more
私は出力を得ています:
論文
pubs.acs.org/accounts
新しい非中心対称材料の合理的な設計に向けて: フレームワーク構造に影響を与える要因
カン・ミンオク*
中央大学化学科、84 Heukseok-ro、Tongjak-gu、Seoul 06974、Republic of Korea
CONSPECTUS: 拡張構造を持つ固体材料は、多くの興味深い構造関連特性を明らかにしました。なかでも、非中心対称(NCS)空間群で結晶化する物質は、さまざまな優れた機能特性に起因する大きな注目を集めています su
これが望ましい出力です。
Pythonスクリプトで間違っていることがわかりません。助けてください。