python - C-SPAN で OCR (pytesser) を使用して結果がまちまち

翻译自：https://stackoverflow.com/questions/16139094 2013-04-22T03:44:33.617

424 次

私はC-SPANから投票情報を抽出するためにpytesserをいじっていますが、私はほとんどOCR初心者です。

今のところ、1 つのスクリーンショットから始めています。最初に画像を白黒にし、色を反転してから、コントラストを最大にしました。以下の画像処理前後のリンク: http://imgur.com/a/jnKRZ

今私はpytesserを実行します：

from pytesser import *
image = Image.open('cspantest1.tif')  # Open image object using PIL
print image_to_string(image)     # Run tesseract.exe on image

混合結果:

ON BROUN O~F~GE0R~GIA'T.;,v I
MOTION TO INSTRUCT  
CONFEREES ; ij h;~J I
~   I       IF
I II, [I; I
H n Iaaae
I I I I` 4*4
, '   I *~ -'~YEA ^-NWY,PRE5 NV
RERUBLICAN I; 82 145  15. II
DEM`OC~F}7\EpF "` ;`1~78-V 4~ ~*v12
_;'~ INDEPENDENT S! It I 2
~YI`a.a:1i- > *-},,5
TOTAL`S 82 323   27
TIME REMAINING 0:00 ..
"W.. .. g I
. "f'    z-;A         
I .

重要なデータ、すべての数値、およびタイマーはそこにありますが、それを行うためのより良い方法があるに違いないと思います. トレーニングファイル用に個々のキャラクターのライブラリを作成しますか? 使用できる文字の範囲を制限しますか?

最終的には、画像操作と OCR プロセス全体を自動化したいと考えています。誰かがこれをきれいにするためのヒントを持っていれば、本当に感謝しています.

python - C-SPAN で OCR (pytesser) を使用して結果がまちまち

0 に答える 0

Related

Reference