0

コンテクスト

私はたくさんのPDFファイルを持っています。それらのいくつかはスキャンされます(つまり画像)。それらはテキスト+写真+表で構成されています。

テーブルをCSVファイルに変換したい。

現在の計画:

1)Tesseract OCRを実行して、すべてのドキュメントのテキストを取得します。

2)??? ある種のテーブル検出アルゴリズムを実行します???

3)行/列/セル、およびそれらのテキストを抽出します。

質問:

使用する標準の「テーブル抽出アルゴリズム」はありますか?

ありがとう!

4

1 に答える 1

2

Abbyy Fine Reader にはテーブル検出が含まれており、最も簡単なアプローチになります。PDF、TIFFなどをスキャン、インポートできます。自動検出が失敗した場合、テーブルと列を手動で調整することもできます。

www.abbyy.com - 試用版をダウンロードできるはずです。また、OCR の結果が Tesseract よりもはるかに正確であることがわかり、時間を大幅に節約できます。

テーブルの種類が多すぎて対処できないため、何かを自分で作成しようとすると失敗します。すなわち。線あり、線なし、影付き、複数の線、さまざまな配置、ヘッダー、フッターなど..

幸運を。

于 2012-05-27T07:13:40.360 に答える