0

座標を入力してpdfマイナーでテキストを抽出しようとしています.インターネットを検索しましたが、それに関連するドキュメントやコードは見つかりませんでした.これまでのところ、テキストを抽出してその座標を出力するコードを見つけました.

LTTextBoxHorizontal
(317.564, 91.32756, 580.93228, 116.24235999999999)
SHOULD ANY OF THE ABOVE DESCRIBED POLICIES BE CANCELLED BEFORE
THE    EXPIRATION   DATE    THEREOF,    NOTICE   WILL   BE   DELIVERED   IN
ACCORDANCE   WITH   THE   POLICY   PROVISIONS.

これは、私が取得した出力座標とテキストの 1 つです。pdfqueryも試しましたが、多くのエラーが発生しました。

File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 268, in __call__
    result = self._copy(*args, parent=self, **kwargs)
  File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 253, in _copy
    return self.__class__(*args, **kwargs)
  File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 239, in __init__
    xpath = self._css_to_xpath(selector)
  File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyquery\pyquery.py", line 249, in _css_to_xpath
    return self._translator.css_to_xpath(selector, prefix)
  File "build\bdist.win32\egg\cssselect\xpath.py", line 192, in css_to_xpath
  File "build\bdist.win32\egg\cssselect\parser.py", line 355, in parse
  File "build\bdist.win32\egg\cssselect\parser.py", line 370, in parse_selector_group
  File "build\bdist.win32\egg\cssselect\parser.py", line 378, in parse_selector
  File "build\bdist.win32\egg\cssselect\parser.py", line 437, in parse_simple_selector
  File "build\bdist.win32\egg\cssselect\parser.py", line 535, in parse_attrib
cssselect.parser.SelectorSyntaxError: Expected string or ident, got <NUMBER '1' at 14> 

誰かがそれを手伝ってくれますか?

4

1 に答える 1

4

これは、 pageid値をエスケープしない場合に発生します。

試す:

LTPage[pageid=\'1\']
于 2016-03-21T01:49:55.457 に答える