3

Tesseract setVariable ホワイトリストは英語で正常に機能します。たとえば、これを使用して画像から数字と文字のみを認識します (特殊文字 &*^%! などを除く)

myOCR->SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");

しかし、私はロシア語で同じことをすることはできません

myOCR->SetVariable("tessedit_char_whitelist", "0123456789абвгдежзийклмнопрстуфхцчшщъыьэюяАБВГДЕЖЗИЙКЛМОПРСТУФХЦЧШЩЭЮЯ");

別の原則はありますか?これはうまくいかないからです。すべての決定された文字の代わりに、出力で数字のみを受け取ります.tesseractは、ホワイトリストに入れたすべてのロシア語の文字を無視します. ブラックリストも機能しませんでした。それを取り除く方法はありますか?ありがとう。

4

3 に答える 3

0

したがって、答えはホワイトリストでこのシンボルのユニコードコードを使用することです。これを正確に行う方法がわかりません

于 2013-02-27T15:01:43.603 に答える