現在、Tesseract OCR を使用していますが、辞書ファイルに正規表現を追加できるかどうか疑問に思っています。
私の推測によると、Tesseract によって検出されたすべての単語は、結果の精度を高めるために辞書と照合されています。
たとえば、8桁の文字列を検索したい場合は、そのような正規表現を「辞書」に追加できるようにしたいと考えています。これにより、これらの8桁に文字が含まれないようになります。
これは可能ですか?もしそうなら、どのように?
私はこれを見つけただけで、現在は 3.02 です: http://code.google.com/p/tesseract-ocr/issues/detail?id=289