4

One challenging topic in computer vision is processing document scans. Typically this involves a number of steps, like noise removal, color analysis, binarization, text block identification, OCR, and then maybe some context analysis and correction.

I'm curious if anyone understands, knows or can point me to literature on how Google identifies text blocks prior to the OCR stage. Any insights?

4

2 に答える 2

2

Google はTesseract OCRエンジンをOcropusという別のツールと組み合わせて使用​​していると思います。どちらもオープンソースです。それらがどのように機能するかについては何も知りませんが、上記のリンクで入手可能なコードをチェックアウトすることに興味があるかもしれません.

于 2009-05-25T00:44:39.923 に答える
0

これは私の図書館のデジタル化スペシャリストからの中古情報ですが、Googleのアプローチは、すべてを自動化されたプロセスに投入し、テキストのように見えるものはすべて、個々の画像のトリミングやセマンティックの実行にあまり煩わされないようにすることです。 analasysは、画像のキャプションなどを探します。彼らは、明白ではない微妙なことをしている可能性がありますが、表面的には、品質よりも量を確実に狙っています。

于 2009-01-15T05:33:29.473 に答える