15

WordLensのようなアプリを開発する予定です。誰かが私が使用できる良いライブラリを提案できますか?または、Word Lens Appの背後にあるテクノロジーについて説明する人はいますか?リールタイム画像マッチングまたはOCRですか?OpenCv、tesseractなどの画像処理ライブラリを知っています...どんな助けでも大歓迎です...

4

1 に答える 1

42

私はWordLensの作成者の一人です。そこにはいくつかのOCRライブラリ(tesseractなど)がありますが、より良い結果とパフォーマンスを得るために、独自のライブラリを作成することにしました。一般的なアルゴリズムは次のようになります。

  1. カメラから画像をコピーして、そのグレースケールコンポーネントを取得します
  2. 画像を水平にして、テキストが背景に対してはっきりと目立つようにします
  3. 文字や文章のように見えるものの周りにボックスを描く
  4. OCRを実行する:各ボックスのピクセルを文字のデータベースと照合します-これは実際にはかなり難しいです!
  5. 文字を単語にまとめ、辞書で調べます(OCRに間違いがあるため、これも難しいです)
  6. 結果を画像に描画します

フォント、単語、言語は多種多様であるため、画像のマッチングだけでは十分ではありません。

OpenCVは、立ち上げて実行し、コンピュータービジョン全般に​​ついて学ぶのに最適なライブラリです。彼らの例を作り上げて、そこで遊んでみることをお勧めします。楽しむ!

于 2013-03-28T05:59:34.813 に答える