座標を入力してpdfマイナーでテキストを抽出しようとしています.インターネットを検索しましたが、それに関連するドキュメントやコードは見つかりませんでした.これまでのところ、テキストを抽出してその座標を出力するコードを見つけました.
LTTextBoxHorizontal
(317.564, 91.32756, 580.93228, 116.24235999999999)
SHOULD ANY OF THE ABOVE DESCRIBED POLICIES BE CANCELLED BEFORE
THE EXPIRATION DATE THEREOF, NOTICE WILL BE DELIVERED IN
ACCORDANCE WITH THE POLICY PROVISIONS.
これは、私が取得した出力座標とテキストの 1 つです。pdfqueryも試しましたが、多くのエラーが発生しました。
File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 268, in __call__
result = self._copy(*args, parent=self, **kwargs)
File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 253, in _copy
return self.__class__(*args, **kwargs)
File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 239, in __init__
xpath = self._css_to_xpath(selector)
File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 249, in _css_to_xpath
return self._translator.css_to_xpath(selector, prefix)
File "build\bdist.win32\egg\cssselect\xpath.py", line 192, in css_to_xpath
File "build\bdist.win32\egg\cssselect\parser.py", line 355, in parse
File "build\bdist.win32\egg\cssselect\parser.py", line 370, in parse_selector_group
File "build\bdist.win32\egg\cssselect\parser.py", line 378, in parse_selector
File "build\bdist.win32\egg\cssselect\parser.py", line 437, in parse_simple_selector
File "build\bdist.win32\egg\cssselect\parser.py", line 535, in parse_attrib
cssselect.parser.SelectorSyntaxError: Expected string or ident, got <NUMBER '1' at 14>
誰かがそれを手伝ってくれますか?