c++ - 別の言語の Tesseract setVariable ホワイトリスト

Question

Tesseract setVariable ホワイトリストは英語で正常に機能します。たとえば、これを使用して画像から数字と文字のみを認識します (特殊文字 &*^%! などを除く)

myOCR->SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");

しかし、私はロシア語で同じことをすることはできません

myOCR->SetVariable("tessedit_char_whitelist", "0123456789абвгдежзийклмнопрстуфхцчшщъыьэюяАБВГДЕЖЗИЙКЛМОПРСТУФХЦЧШЩЭЮЯ");

別の原則はありますか？これはうまくいかないからです。すべての決定された文字の代わりに、出力で数字のみを受け取ります.tesseractは、ホワイトリストに入れたすべてのロシア語の文字を無視します. ブラックリストも機能しませんでした。それを取り除く方法はありますか？ありがとう。

score 0 · Accepted Answer

したがって、答えはホワイトリストでこのシンボルのユニコードコードを使用することです。これを正確に行う方法がわかりません

3 に答える 3