私はC-SPANから投票情報を抽出するためにpytesserをいじっていますが、私はほとんどOCR初心者です。
今のところ、1 つのスクリーンショットから始めています。最初に画像を白黒にし、色を反転してから、コントラストを最大にしました。以下の画像処理前後のリンク: http://imgur.com/a/jnKRZ
今私はpytesserを実行します:
from pytesser import *
image = Image.open('cspantest1.tif') # Open image object using PIL
print image_to_string(image) # Run tesseract.exe on image
混合結果:
ON BROUN O~F~GE0R~GIA'T.;,v I
MOTION TO INSTRUCT
CONFEREES ; ij h;~J I
~ I IF
I II, [I; I
H n Iaaae
I I I I` 4*4
, ' I *~ -'~YEA ^-NWY,PRE5 NV
RERUBLICAN I; 82 145 15. II
DEM`OC~F}7\EpF "` ;`1~78-V 4~ ~*v12
_;'~ INDEPENDENT S! It I 2
~YI`a.a:1i- > *-},,5
TOTAL`S 82 323 27
TIME REMAINING 0:00 ..
"W.. .. g I
. "f' z-;A
I .
重要なデータ、すべての数値、およびタイマーはそこにありますが、それを行うためのより良い方法があるに違いないと思います. トレーニング ファイル用に個々のキャラクターのライブラリを作成しますか? 使用できる文字の範囲を制限しますか?
最終的には、画像操作と OCR プロセス全体を自動化したいと考えています。誰かがこれをきれいにするためのヒントを持っていれば、本当に感謝しています.