コンテクスト
私はたくさんのPDFファイルを持っています。それらのいくつかはスキャンされます(つまり画像)。それらはテキスト+写真+表で構成されています。
テーブルをCSVファイルに変換したい。
現在の計画:
1)Tesseract OCRを実行して、すべてのドキュメントのテキストを取得します。
2)??? ある種のテーブル検出アルゴリズムを実行します???
3)行/列/セル、およびそれらのテキストを抽出します。
質問:
使用する標準の「テーブル抽出アルゴリズム」はありますか?
ありがとう!