16

次の画像をレプトニカで処理して、テッセラクトでテキストを抽出しようとしています。

元の画像: 元の画像

元の画像に Tesseract を適用すると、次のようになります。

i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-

特に上部の背景は良くありません。したがって、レプティオニカを使用して、背景除去アルゴリズム (ぼかし、差分、しきい値、反転) を使用して、次の画像を取得します。 加工画像

しかし、 tesseract はそれでうまくいきません:

@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I

主な問題は、すべてのテキストが実線ではなくアウトライン化されていることです。アルゴリズムを調整するにはどうすればよいですか、またはテキストをソリッドにするために何を追加できますか?

4

1 に答える 1

11

この論文は、あなたの問題を解決する二値化方法を提案しているようです:

T カサール、J クマール、AG ラマクリシュナン。フォントと背景色に依存しないテキストの二値化。(2007)

Kasarらのメソッドのパフォーマンス

于 2012-07-27T22:17:57.483 に答える