問題タブ [python-camelot]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 問題

0 投票する

1 に答える

3122 参照

python - Camelot を使用してこの PDF からデータを抽出すると、テーブルが見つからず、列のテキストがマージされました

UserWarning: No tables found on page-1添付の PDF からテーブルを抽出しようとすると、が表示されます。しかし、抽出されたデータを見ると、一部の列テキストが 1 つの列に結合されていました。」</p>

これらの PDF を解析するためにCamelotを使用しています

再現する手順： camelot --output m27.csv --format csv stream m27.pdf

解析しようとしている PDF へのリンクは次のとおりです: https://github.com/tabulapdf/tabula-java/blob/master/src/test/resources/technology/tabula/m27.pdf

2018-11-09T18:39:46.487

0 投票する

2 に答える

3244 参照

python - camelot を使用して pdf を読み取ることができません

以前はPDF ファイルcamelotを読んでいましたが、その一部しか取得できません。

全ページを読むには？

結果dfは

また、より多くの結果が含まれていましたが、すべてではありませんでした。

python pdf python-camelot

2019-02-13T06:40:03.877

0 投票する

3 に答える

1270 参照

pdf - 履歴 PDF からテーブルを抽出するにはどうすればよいですか?

このファイルから同様にフォーマットされたテーブルからデータを抽出する必要があります。OCR エラーがいくつかありますが、それらを修正する自動化された方法があります。

私が試してみました：

ABBYY Finereader テーブル検出。
表の抽出
キャメロット表抽出
カスタム pythonコード

問題:コマーシャルツールは、テーブルの端を検出するのが非常に苦手です。テーブルは同様の一般的な形式に従いますが、各スキャンはわずかに異なる方法で配置されるため、ボーダーをハードコーディングしても機能しません。

質問:テーブルの開始位置を検出し、いくつかのテンプレートの 1 つを適用する良い方法を知っていますか?

この種の作業に関するその他のヒントは大歓迎です。

pdf ocr data-extraction pdf-extraction python-camelot

2019-02-23T01:33:47.120

1 2 3 4 5 6 7 8 9 10

問題タブ [python-camelot]

python - Camelot を使用してこの PDF からデータを抽出すると、テーブルが見つからず、列のテキストがマージされました

python - camelot を使用して pdf を読み取ることができません

pdf - 履歴 PDF からテーブルを抽出するにはどうすればよいですか?

Reference