問題タブ [tabula-py]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 問題

0 投票する

1 に答える

102 参照

python - Pandas DataFrame で指定されたインデックス値の連続する行を組み合わせる

tabula-py を使用して PDF からテーブルを抽出していました。ただし、一部の行が複数行だったテーブルでは、tabula-py では、単一のテーブルの行が DataFrame の複数の行に変換されます。ここでサンプルをあげています。

サンプルを見ると、9、10、および 11 インデックスの行が実際には 1 行であることがわかります。表 (pdf) に複数の行がありました。このテーブルには 100 を超える行があり、少なくとも 12 か所でこれらの問題が発生しています。場所によっては 2 列連続で、場所によっては 3 列連続です。これらの行をインデックス値とマージするにはどうすればよいでしょうか?

2021-06-30T19:09:04.507

0 投票する

0 に答える

39 参照

python-3.x - PDFで生成されたテーブル（表）からデータを抽出する

PDFファイルを変換してDjangoモデルフィールドに保存しようとしています。これまでのところ、ファイルを CSV データフレームに変換でき、ヘッダーとデータを読み取ることができます。ただし、テーブルには大量のデータを含む 1 つの行があり、ヘッダーは日付が付けられているため、時間の経過とともに変化するため、小さな問題が発生しています。

ここにpdfの表の抜粋があります：

これは私がこれまで行ったことです：

私が知りたいのは、列を対応するデータと照合して JSON として使用することだけです。

python-3.x pandas datatable tabula-py

2021-07-19T13:18:21.657

0 投票する

0 に答える

27 参照

python - tabula-pyを使用してpdfを読み取れません

を使用してpdfを解析しようとしてtabula-pyいますが、このエラースタックが引き続き発生します-

ここにコードがあります -

コマンドラインからpdfを解析しようとすると、動作します

私Pipfileの見た目はこんな感じ

何が問題なのですか？

python tabula tabula-py

2021-07-24T13:42:44.000

1 2 3 4 5 6 7 8 9 10

問題タブ [tabula-py]

python - Pandas DataFrame で指定されたインデックス値の連続する行を組み合わせる

python-3.x - PDFで生成されたテーブル（表）からデータを抽出する

python - tabula-pyを使用してpdfを読み取れません

Reference