PDF請求書をcsvに読み込もうとしています。請求書には 4 つの列があります。
請求書は次のようになります。
説明 | 音量 | 単価 | 費用 |
---|---|---|---|
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 | 4,157 | $0.00 | $0.00 |
DERECITM JAN リコールアイテム | 3 | $0.00 | $0.00 |
DETCREPR JAN 直接入力給与トランザクション | 5,882 | はい | $0.00 |
次のコードを実行した後:
!pip install tabula-py
import pandas as pd
import tabula
df = tabula.read_pdf("/content/invoice.pdf",pages="all")
tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')
受け取った出力は奇妙に表示されます tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')
説明 | 音量 | 単価 | 費用 |
---|---|---|---|
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 4,157 | $0.00 | $0.00 | |
DERECITM JAN リコールアイテム 3 | $0.00 | $0.00 | |
DETCREPR JAN 直接入力給与トランザクション 5,882 | $0.00 | $0.00 |
説明に続く数字を別の列に分けるにはどうすればよいですか? 2.説明 DERECITM 、DETCREPR、DETCREDT のコードをコードと呼ばれる別の列に入れるにはどうすればよいですか?
テーブルをデータフレームに変換してエクスポートするにはどうすればよいですか? やってみたから
df.to_csv(r'/content/invoice.csv', index=False, header=True) しかし、df がリストであるというエラーが表示され、このエクスポートでは何も生成されません。
私の素晴らしい友人たち、これを手伝ってくれてとても感謝しています。