0

PDF請求書をcsvに読み込もうとしています。請求書には 4 つの列があります。

請求書は次のようになります。

説明 音量 単価 費用
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 4,157 $0.00 $0.00
DERECITM JAN リコールアイテム 3 $0.00 $0.00
DETCREPR JAN 直接入力給与トランザクション 5,882 はい $0.00

次のコードを実行した後:

!pip install tabula-py
import pandas as pd
import tabula
df = tabula.read_pdf("/content/invoice.pdf",pages="all")
tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

受け取った出力は奇妙に表示されます tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

説明 音量 単価 費用
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 4,157 $0.00 $0.00
DERECITM JAN リコールアイテム 3 $0.00 $0.00
DETCREPR JAN 直接入力給与トランザクション 5,882 $0.00 $0.00
  1. 説明に続く数字を別の列に分けるにはどうすればよいですか? 2.説明 DERECITM 、DETCREPR、DETCREDT のコードをコードと呼ばれる別の列に入れるにはどうすればよいですか?

  2. テーブルをデータフレームに変換してエクスポートするにはどうすればよいですか? やってみたから

    df.to_csv(r'/content/invoice.csv', index=False, header=True) しかし、df がリストであるというエラーが表示され、このエクスポートでは何も生成されません。

私の素晴らしい友人たち、これを手伝ってくれてとても感謝しています。

4

0 に答える 0