python - PythonでPDFファイルからグリッドなしでテーブルを抽出する方法は何ですか?

翻译自：https://stackoverflow.com/questions/56604769 2019-06-14T20:28:40.393

1098 次

私は、pdf ファイルのテーブルからデータを抽出するタスクを自動化する必要があるプロジェクトに取り組んでいます。このプロジェクトでは python を使用しています。

この問題にアプローチするより良い方法があるかどうか疑問に思っています。

私はすでにタブラを使用していますが、テーブルに明確なグリッドがない場合、タブラは正しく機能しません。

Open CV を使用してテーブルとセルの周りにグリッドを描画し、OCR を使用してファイルからデータを抽出することを考えています。

<img src="https://i.stack.imgur.com/qs9am.png">

1 に答える 1