私は、pdf ファイルのテーブルからデータを抽出するタスクを自動化する必要があるプロジェクトに取り組んでいます。このプロジェクトでは python を使用しています。
この問題にアプローチするより良い方法があるかどうか疑問に思っています。
私はすでにタブラを使用していますが、テーブルに明確なグリッドがない場合、タブラは正しく機能しません。
Open CV を使用してテーブルとセルの周りにグリッドを描画し、OCR を使用してファイルからデータを抽出することを考えています。
<img src="https://i.stack.imgur.com/qs9am.png">