問題タブ [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
1104 参照

pandas - キャメロットは同じセルの異なる行を同じように扱います

Camelot は、実際には別の行ではない場合でも、一部の行を別の行として扱います。結果は、前の行に属していたはずの行です。

私は Camelot と協力して、銀行の明細書からデータを抽出しています。問題は、Camelot が実際には別の行ではないのに別の行として扱うことです。? 添付の画像でわかるように、2019 年 1 月 9 日のトランザクションは、実際には 1 つしかないのに 3 つの行に分割されています。これは、説明が複数の行にある場合に発生します (元のステートメントが添付されています)。

row_tol と col_tol を最適化しようとしましたが、成功しませんでした。キャメロット内の解決策はありますか? そうでない場合、PANDAS で簡単に修正できるものは何ですか?

ここに画像の説明を入力

ここに画像の説明を入力

0 投票する
1 に答える
2799 参照

python-3.x - python-camelotを使用してテーブル座標を取得するには?

いくつかの重要な情報を抽出するために、いくつかの pdf ファイルを解析しようとしています。これらの情報の一部を含む各 pdf には、いくつかのテーブルがあります。そこで、キャメロットを使用してテーブルを抽出しようとしましたが、良い結果が得られましたが、各テーブルのタイトルをマッピングしたいので、各テーブルのタイトルを抽出したいと思います。そこで、次のように、各テーブルの座標を取得してtables[i]._bboxから、これらの座標にマージンを追加して、テーブルのタイトルの領域を検出しようとしました (テーブルの上部、左側、または下部にある可能性があります)。画像中 :左側の表のタイトル

上部のテーブルのタイトル

Pythonを使用してテーブル座標に基づいてpdfからテーブルのタイトルを含む赤い領域の座標を取得する方法を教えてもらえますか?