問題タブ [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - 履歴 PDF からテーブルを抽出するにはどうすればよいですか?
このファイルから同様にフォーマットされたテーブルからデータを抽出する必要があります。OCR エラーがいくつかありますが、それらを修正する自動化された方法があります。
私が試してみました:
- ABBYY Finereader テーブル検出。
- 表の抽出
- キャメロット表抽出
- カスタム pythonコード
問題:コマーシャル ツールは、テーブルの端を検出するのが非常に苦手です。テーブルは同様の一般的な形式に従いますが、各スキャンはわずかに異なる方法で配置されるため、ボーダーをハードコーディングしても機能しません。
質問:テーブルの開始位置を検出し、いくつかのテンプレートの 1 つを適用する良い方法を知っていますか?
この種の作業に関するその他のヒントは大歓迎です。