pdf - テーブル検出アルゴリズム

Question

コンテクスト

私はたくさんのPDFファイルを持っています。それらのいくつかはスキャンされます（つまり画像）。それらはテキスト+写真+表で構成されています。

テーブルをCSVファイルに変換したい。

1）Tesseract OCRを実行して、すべてのドキュメントのテキストを取得します。

2）??? ある種のテーブル検出アルゴリズムを実行します???

3）行/列/セル、およびそれらのテキストを抽出します。

使用する標準の「テーブル抽出アルゴリズム」はありますか？

ありがとう！

score 2 · Accepted Answer

Abbyy Fine Reader にはテーブル検出が含まれており、最も簡単なアプローチになります。PDF、TIFFなどをスキャン、インポートできます。自動検出が失敗した場合、テーブルと列を手動で調整することもできます。

www.abbyy.com - 試用版をダウンロードできるはずです。また、OCR の結果が Tesseract よりもはるかに正確であることがわかり、時間を大幅に節約できます。

テーブルの種類が多すぎて対処できないため、何かを自分で作成しようとすると失敗します。すなわち。線あり、線なし、影付き、複数の線、さまざまな配置、ヘッダー、フッターなど..

幸運を。