python-3.x - Python 3.6: PDF テーブルからデータを抽出するとデータが乱れる

翻译自：https://stackoverflow.com/questions/55553751 2019-04-06T21:46:20.473

277 次

Tabula を使用して PDF テーブルからデータフレームを抽出しようとしています。データがごちゃごちゃになっていて、注文するのに苦労しています。私の構文が間違っている場所を誰か指摘できますか?

テーブルの画像と Python セッションの出力:

^{(画像をクリックすると拡大します)}

コード：

import tabulate as tabulate  
import tabula
from tabula import read_pdf
import pandas as pd
import camelot
a = read_pdf(r"C:\Users\Emege\Downloads\cencosud.pdf", pages = 6, guess = False,\
        encoding = "ISO-8859-1" ,output_format = "csv")

print(a)
a.to_csv("cen.csv", encoding = "utf-8")

b = camelot.read_pdf(r"C:\Users\Emege\Downloads\cencosud.pdf")
print(b)

python-3.x - Python 3.6: PDF テーブルからデータを抽出するとデータが乱れる

0 に答える 0

Related

Reference