WordLensのようなアプリを開発する予定です。誰かが私が使用できる良いライブラリを提案できますか?または、Word Lens Appの背後にあるテクノロジーについて説明する人はいますか?リールタイム画像マッチングまたはOCRですか?OpenCv、tesseractなどの画像処理ライブラリを知っています...どんな助けでも大歓迎です...
質問する
5734 次
1 に答える
42
私はWordLensの作成者の一人です。そこにはいくつかのOCRライブラリ(tesseractなど)がありますが、より良い結果とパフォーマンスを得るために、独自のライブラリを作成することにしました。一般的なアルゴリズムは次のようになります。
- カメラから画像をコピーして、そのグレースケールコンポーネントを取得します
- 画像を水平にして、テキストが背景に対してはっきりと目立つようにします
- 文字や文章のように見えるものの周りにボックスを描く
- OCRを実行する:各ボックスのピクセルを文字のデータベースと照合します-これは実際にはかなり難しいです!
- 文字を単語にまとめ、辞書で調べます(OCRに間違いがあるため、これも難しいです)
- 結果を画像に描画します
フォント、単語、言語は多種多様であるため、画像のマッチングだけでは十分ではありません。
OpenCVは、立ち上げて実行し、コンピュータービジョン全般について学ぶのに最適なライブラリです。彼らの例を作り上げて、そこで遊んでみることをお勧めします。楽しむ!
于 2013-03-28T05:59:34.813 に答える