pdfquery ライブラリを使用して、pdf の目的の bbox 内にテキストを返そうとしています。
import pdfquery
pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")
test = pdf.extract([
('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
])
print(test)
最初に、返されたページの左上隅から bbox を定義しました
{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}
次に、ページの左下から bbox を定義し、同様の結果を返しました。次に、8.5 インチ x 11 インチのページ全体を含む bbox を定義し、すべてのテキストではなく、さらに多くの値を返しました。「クイックスタート」の下のドキュメントに従っていたので、ここで何か間違ったことをしましたか。私はpython 2.7を使用しています