問題タブ [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
102 参照

python - Pandas DataFrame で指定されたインデックス値の連続する行を組み合わせる

tabula-py を使用して PDF からテーブルを抽出していました。ただし、一部の行が複数行だったテーブルでは、tabula-py では、単一のテーブルの行が DataFrame の複数の行に変換されます。ここでサンプルをあげています。

サンプルを見ると、9、10、および 11 インデックスの行が実際には 1 行であることがわかります。表 (pdf) に複数の行がありました。このテーブルには 100 を超える行があり、少なくとも 12 か所でこれらの問題が発生しています。場所によっては 2 列連続で、場所によっては 3 列連続です。これらの行をインデックス値とマージするにはどうすればよいでしょうか?

0 投票する
0 に答える
39 参照

python-3.x - PDFで生成されたテーブル(表)からデータを抽出する

PDFファイルを変換してDjangoモデルフィールドに保存しようとしています。これまでのところ、ファイルを CSV データ フレームに変換でき、ヘッダーとデータを読み取ることができます。ただし、テーブルには大量のデータを含む 1 つの行があり、ヘッダーは日付が付けられているため、時間の経過とともに変化するため、小さな問題が発生しています。

ここにpdfの表の抜粋があります: ここに画像の説明を入力

これは私がこれまで行ったことです:

私が知りたいのは、列を対応するデータと照合して JSON として使用することだけです。

0 投票する
0 に答える
27 参照

python - tabula-pyを使用してpdfを読み取れません

を使用してpdfを解析しようとしてtabula-pyいますが、このエラースタックが引き続き発生します-

ここにコードがあります -

コマンドラインからpdfを解析しようとすると、動作します

Pipfileの見た目はこんな感じ

何が問題なのですか?