問題タブ [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Tabula-py エクスポートが収束し、列が壊れる - データフレームを修正する方法
PDF請求書をcsvに読み込もうとしています。請求書には 4 つの列があります。
請求書は次のようになります。
説明 | 音量 | 単価 | 費用 |
---|---|---|---|
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 | 4,157 | $0.00 | $0.00 |
DERECITM JAN リコールアイテム | 3 | $0.00 | $0.00 |
DETCREPR JAN 直接入力給与トランザクション | 5,882 | はい | $0.00 |
次のコードを実行した後:
受け取った出力は奇妙に表示されます tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')
説明 | 音量 | 単価 | 費用 |
---|---|---|---|
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 4,157 | $0.00 | $0.00 | |
DERECITM JAN リコールアイテム 3 | $0.00 | $0.00 | |
DETCREPR JAN 直接入力給与トランザクション 5,882 | $0.00 | $0.00 |
説明に続く数字を別の列に分けるにはどうすればよいですか? 2.説明 DERECITM 、DETCREPR、DETCREDT のコードをコードと呼ばれる別の列に入れるにはどうすればよいですか?
テーブルをデータフレームに変換してエクスポートするにはどうすればよいですか? やってみたから
df.to_csv(r'/content/invoice.csv', index=False, header=True) しかし、df がリストであるというエラーが表示され、このエクスポートでは何も生成されません。
私の素晴らしい友人たち、これを手伝ってくれてとても感謝しています。
python - tabula-py で Gdrive パスを読み取る
tabula-py を使用して PDF からテーブルを読み取っていますが、ファイルを Gdrive から作業ディレクトリにダウンロードする代わりに、Gdrive ファイル パスを直接使用したいと考えています。
しかし、次のエラーが表示されます。
コマンド '['java', '-Dfile.encoding=UTF8', '-jar', '/opt/conda/lib/python3.7/site-packages/tabula/tabula-1.0.5-jar-with-dependencies .jar', '--pages', 'all', '--guess', '--format', 'JSON', '/tmp/1a0aad07-88cc-4060-9df4-a52f780a97fb.pdf']' が返されなかった-ゼロの終了ステータス 1。
Gdrive から直接ファイルを読み取る方法はありますか (Python で Gdrive API を使用すると、PDF ファイルのテキスト コンテンツが得られますが、役に立ちません)。