pdf - 履歴 PDF からテーブルを抽出するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/54837357 2019-02-23T01:33:47.120

1270 次

1

このファイルから同様にフォーマットされたテーブルからデータを抽出する必要があります。OCR エラーがいくつかありますが、それらを修正する自動化された方法があります。

私が試してみました：

ABBYY Finereader テーブル検出。
表の抽出
キャメロット表抽出
カスタム pythonコード

問題:コマーシャルツールは、テーブルの端を検出するのが非常に苦手です。テーブルは同様の一般的な形式に従いますが、各スキャンはわずかに異なる方法で配置されるため、ボーダーをハードコーディングしても機能しません。

質問:テーブルの開始位置を検出し、いくつかのテンプレートの 1 つを適用する良い方法を知っていますか?

この種の作業に関するその他のヒントは大歓迎です。

3 に答える 3