PDFから特定のテーブルを抽出しようとしています.PDFは下の画像のようになります
Pythonでさまざまなライブラリを試してみましたが、
tabula-py を使用
from tabula import read_pdf
from tabulate import tabulate
df = read_pdf("./tmp/pdf/Food Calories List.pdf")
df
PyPDF2 で
pdf_file = open("./tmp/pdf/Food Calories List.pdf", 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
data = page_content
df = pd.DataFrame([x.split(';') for x in data.split('\n')])
aux = page_content
df = pd.DataFrame([x.split(';') for x in aux.split('\n')])
テクスチャと美しいスープでも、私が直面している問題は、出力形式が混乱していることです。このテーブルをより良い形式で抽出する方法はありますか?