問題タブ [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
27 参照

python - PDF ファイルから MCC の詳細を抽出できません

PDF から MCC の詳細を抽出できません。私のコードで他のデータを抽出できます。

「モバイル国コード(MCC)」の詳細を取得しようとしているのと同じロジック。しかし、Pandas データ フレームは、PDF にあるデータではなく、別のデータを表示しています。

パンダの出力は次のとおりです。 pandas_output

PDFファイルの実際の内容は次のとおりです。 actual_pdf

0 投票する
0 に答える
21 参照

python - Tabula-py エクスポートが収束し、列が壊れる - データフレームを修正する方法

PDF請求書をcsvに読み込もうとしています。請求書には 4 つの列があります。

請求書は次のようになります。

説明 音量 単価 費用
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 4,157 $0.00 $0.00
DERECITM JAN リコールアイテム 3 $0.00 $0.00
DETCREPR JAN 直接入力給与トランザクション 5,882 はい $0.00

次のコードを実行した後:

受け取った出力は奇妙に表示されます tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

説明 音量 単価 費用
ダイレクトエントリーサービス DETCREDT JAN ダイレクトエントリー信用取引 4,157 $0.00 $0.00
DERECITM JAN リコールアイテム 3 $0.00 $0.00
DETCREPR JAN 直接入力給与トランザクション 5,882 $0.00 $0.00
  1. 説明に続く数字を別の列に分けるにはどうすればよいですか? 2.説明 DERECITM 、DETCREPR、DETCREDT のコードをコードと呼ばれる別の列に入れるにはどうすればよいですか?

  2. テーブルをデータフレームに変換してエクスポートするにはどうすればよいですか? やってみたから

    df.to_csv(r'/content/invoice.csv', index=False, header=True) しかし、df がリストであるというエラーが表示され、このエクスポートでは何も生成されません。

私の素晴らしい友人たち、これを手伝ってくれてとても感謝しています。

0 投票する
0 に答える
8 参照

python - tabula-py で Gdrive パスを読み取る

tabula-py を使用して PDF からテーブルを読み取っていますが、ファイルを Gdrive から作業ディレクトリにダウンロードする代わりに、Gdrive ファイル パスを直接使用したいと考えています。

しかし、次のエラーが表示されます。

コマンド '['java', '-Dfile.encoding=UTF8', '-jar', '/opt/conda/lib/python3.7/site-packages/tabula/tabula-1.0.5-jar-with-dependencies .jar', '--pages', 'all', '--guess', '--format', 'JSON', '/tmp/1a0aad07-88cc-4060-9df4-a52f780a97fb.pdf']' が返されなかった-ゼロの終了ステータス 1。

Gdrive から直接ファイルを読み取る方法はありますか (Python で Gdrive API を使用すると、PDF ファイルのテキスト コンテンツが得られますが、役に立ちません)。