1

pdfquery ライブラリを使用して、pdf の目的の bbox 内にテキストを返そうとしています。

import pdfquery

pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")

test =  pdf.extract([
      ('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
 ])

print(test)

最初に、返されたページの左上隅から bbox を定義しました

{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}

次に、ページの左下から bbox を定義し、同様の結果を返しました。次に、8.5 インチ x 11 インチのページ全体を含む bbox を定義し、すべてのテキストではなく、さらに多くの値を返しました。「クイックスタート」の下のドキュメントに従っていたので、ここで何か間違ったことをしましたか。私はpython 2.7を使用しています

4

1 に答える 1