16

印刷されたテキストのOCR認識に取り組んでいます。特に、Tesseractエンジンの結果を改善するための前処理ステップに焦点を当てています。アダプティブ スレッシュホールド、ノイズ除去、テキスト デスキューなどで既に良い結果が得られています。

以下のテスト画像を使用しました。Tesseract 3.04 で得られた結果を 2 つの商用 OCR API と比較したものです。3 つのサービスはすべて、わずかにぼやけたテキストを含む同じバイナリ イメージで提供されました。

3 つの OCR 製品の比較に使用されるテキスト画像

テセラクト

Careers in Technology Consulting

Networking Lunch
21 m 2014, 11:00 - 14:30

Definingthecorporatellstmtegy, Wammmwdngdeal, creating
uniquebwinessisighnwilgbigdam-doesflismflxemmyouafioy?

Findoutmoreabanhowitfeektomkasatedlflogymbyjoiningour

for further mm please visit mAeloittexom/weers

ABBYYファイン リーダー オンライン

Careers in Technology Consulting
Networking Lunch
21 November 2014,1140-14:30
Defining the corporate IT strategy, planning a multHnKon <Mar outsourcing deal, creating unique business insights using big data-doesthis sound Ifce something you enjoy?
Find out more about hour it feels to work as a technology consultant by joining our exclusive networking lunch,
For further information please visit wrwMuleloittexom/carcert

オンライン OCR

Careers in Technology Consulting Networking Lunch 21 November 2014, 11;00 —14:30 
Defining the corporate IT strategy, planning a muiti-indlimi dollar outsourcing deal, creating unique business insights using big data—does this sound like something you enjoy? 
Find out more about how it feels to work as a tedmology consultant by joining our exclusive networking lunch, 
For further information' please visit wwwdeloitte,com/careers 

Tesseract と他の 2 つの製品の間の大きなギャップは、別のエンジンによるものなのか (ABBYY が独自のエンジンを使用していることは確かですが、OCR Web サービスについては不明です)、それとも Tesseract を実行する前に実行できる他の前処理手順があるのか​​ 疑問に思っています。 . 何か提案はありますか?

4

1 に答える 1