ocr - OCRingのためにtesserractに渡す前に、スキャンしたドキュメントからグラフィックを削除する方法は?

Question

OCR プロジェクトに取り組んでいますが、スキャンしたドキュメントイメージを tesserract に渡す前にグラフィックスを削除する方法がわかりません。グラフィックを削除したいスキャンしたドキュメントは次のとおりです。

どんなアドバイスでも大歓迎です。どうもありがとう。

score 1 · Accepted Answer

テキスト領域は通常まばらで互いに接続されていないため、元の画像でソーベルエッジ検出を行い、画像領域を検出するためのしきい値で最大の接続領域を検出することを検討できます。

一方、画像は長方形の領域なので、直線を検出するハフ変換を行い、4 本の線で構成される長方形を作成する方法もあります。この方法を使用する場合は、計算の複雑さを軽減するために、最初に画像をズームすることをお勧めします。

2 に答える 2