pdfminer
(バージョン20140328)でpdfを抽出したいと思います。
これは、pdf を抽出するコードです。
import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
import urllib2
def pdf_to_string(data):
fp = StringIO(data)
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
# Create a PDF interpreter object.
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()
return data
pdf_url="http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/140836.pdf"
file_object = urllib2.urlopen(urllib2.Request(pdf_url)).read()
string=pdf_to_string(file_object)
これは、pdf のスクリーンショットです。
問題は、pdfminer
それを水平方向 (人から位置) ではなく、列 (すべての人からそれぞれの位置) で読み取ることです。
Belgium:
Mr Koen GEENS
Bulgaria:
Mr Petar CHOBANOV
Czech Republic:
Mr Radek URBAN
Minister for Finance, with responsibility for the Civil
Service
Minister for Finance
Deputy Minister for Finance
pdfminer
テキストを横に読むにはどうすればよいですか?