Tesseract OCRエンジンは、意味のないテキストを出力することがあります。意味のないテキストや単語を無視するアルゴリズムを設計したいのですが、以下は無視したい出力テキストの一種です。私の簡単な解決策は、 「」で区切られた認識されたテキストと単語が多すぎるテキストはゴミになります(ヒント:最大40語の画像をスキャンしています)どんなアイデアでも役に立ちます、ありがとう。
wo:>"|axnoA1wvw\
ldflfig
°J!9O‘ !P99W M9N 6 13!-|15!Cl ‘I-/Vl
978 89l9 Z0 3+ 3 'l9.l.
97 999 VLL lLOZ+ 3 9l!q°lN
wo0'|axno/(@|au1e>1e: new;
1=96r2a1ey\1 1uauud0|e/\e(]
|8UJB){ p8UJL|\7'