PDFMiner を使用して一貫した方法で PDF から情報を抽出しようとしているので、さらに分析を行うことができますが、表形式のデータを正しく抽出する方法がわかりません。PDF Miner は、行の前に列を抽出するようです。誰かがこの問題を解決したか、最初に行を抽出する方法を知っていますか? それをhtmlに抽出しようとしましたが、同じ問題に遭遇しました。どんな助けでも大歓迎です。
実際のpdfからの画像:
抽出されたバージョンの画像
抽出に使用したコードは次のとおりです。
import nltk
import numpy
import pip
import pdfminer
import dateutil
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
fstr = ''
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
str = retstr.getvalue()
fstr += str
fp.close()
device.close()
retstr.close()
return fstr
test1 = convert_pdf_to_txt("C:\Users\User\Documents\Contract\Dental\Certificate - Dental - Assurant - 2010.pdf")