コンテクスト
私はたくさんのPDFファイルを持っています。それらのいくつかはスキャンされます(つまり画像)。それらはテキスト+写真+表で構成されています。
テーブルをCSVファイルに変換したい。
現在の計画:
1)Tesseract OCRを実行して、すべてのドキュメントのテキストを取得します。
2)??? ある種のテーブル検出アルゴリズムを実行します???
3)行/列/セル、およびそれらのテキストを抽出します。
質問:
使用する標準の「テーブル抽出アルゴリズム」はありますか?
ありがとう!
私はたくさんのPDFファイルを持っています。それらのいくつかはスキャンされます(つまり画像)。それらはテキスト+写真+表で構成されています。
テーブルをCSVファイルに変換したい。
1)Tesseract OCRを実行して、すべてのドキュメントのテキストを取得します。
2)??? ある種のテーブル検出アルゴリズムを実行します???
3)行/列/セル、およびそれらのテキストを抽出します。
使用する標準の「テーブル抽出アルゴリズム」はありますか?
ありがとう!
Abbyy Fine Reader にはテーブル検出が含まれており、最も簡単なアプローチになります。PDF、TIFFなどをスキャン、インポートできます。自動検出が失敗した場合、テーブルと列を手動で調整することもできます。
www.abbyy.com - 試用版をダウンロードできるはずです。また、OCR の結果が Tesseract よりもはるかに正確であることがわかり、時間を大幅に節約できます。
テーブルの種類が多すぎて対処できないため、何かを自分で作成しようとすると失敗します。すなわち。線あり、線なし、影付き、複数の線、さまざまな配置、ヘッダー、フッターなど..
幸運を。