1

私は現在tabula.read_pdf()、pdfからテーブルを抽出するために使用しています。ただし、テーブルがどのページからのものかについての情報はありません。pages1 つの方法は、総ページ数を取得し、引数 forを渡して各ページを繰り返すことですtabula.read_pdf()。ただし、これは非常に非効率的です。以下はいくつかの説明であり、ここで例の pdf を使用しています http://www.annualreports.com/HostedData/AnnualReports/PDF/NASDAQ_AMZN_2019.pdf

%%time
for i in range(1,88):
    tables = read_pdf(pdf_path, pages=i, stream=True)
# CPU times: user 803 ms, sys: 686 ms, total: 1.49 s
# Wall time: 3min 4s

%%time
tables = read_pdf(pdf_path, pages='all', stream=True)
# CPU times: user 402 ms, sys: 171 ms, total: 573 ms
# Wall time: 21.2 s
4

1 に答える 1