ISBN 番号 (ISBN: 978-83-7380-900-0) を認識する iPhone アプリケーションに取り組んでいます。これには tesseract を使用していますが、うまく機能していません。同じエンジンを使用してより適切に動作する他のアプリケーションを見ることができます。
文字を制限するには、次の構成行を使用します: tess->SetVariable("tessedit_char_whitelist", "SN:0123456789X-"); すべての "I" は "1" に変換され、"B" は 8 に変換されます。これを使用すると、それらの文字を間違えることはありません。その後、正規表現を使用して、認識されたテキストの正しい部分を見つけます。
また、画像をトリミングするため、tesseract は isbn が表示されている画像の一部のみを認識します (カメラ オーバーレイにカラー四角形を配置したため、ユーザーはコードを正しい場所に配置する必要があります)。画像のサイズを 1000px 幅に変更します (他の方法も試しました)サイズ)
光が良いときはうまく機能しますが、光が完全でないときは正しく認識するのが非常に困難です。
isbn 番号の最後の桁はコントロールサムです。
うまく機能させるにはどうすればよいですか?指定された正規表現でのみテキストを認識するために tesserect を言う方法はありますか? 多分私は最初に画像で何かをするべきですか?
正しく認識されないサンプル画像:
http://img412.imageshack.us/i/img0367si.jpg/
http://img264.imageshack.us/i/img0361d.jpg/