私は pytesseract を使用して本当に良い結果を得ていましたが、ダブルスペースを保持することができず、それらは私にとって本当に重要です. そこで、純粋なテキストではなく hocr 出力を取得することにしました。しかし、pytessearct を使用して構成ファイルを指定する方法はないようです。
それで、pytesseractを使用して構成ファイルを指定することは可能ですか、それともhocr出力を得るために変更できるデフォルトの構成ファイルがありますか?
#run method from pytessearct.py
def run_tesseract(input_filename, output_filename_base, lang=None, boxes=False, config=None):
'''
runs the command:
`tesseract_cmd` `input_filename` `output_filename_base`
returns the exit status of tesseract, as well as tesseract's stderr output
'''
command = [tesseract_cmd, input_filename, output_filename_base]
if lang is not None:
command += ['-l', lang]
if boxes:
command += ['batch.nochop', 'makebox']
if config:
command += shlex.split(config)
#command+=['C:\\Program Files (x86)\\Tesseract-OCR\\tessdata\\configs\\hocr']
#print "command:",command
proc = subprocess.Popen(command,
stderr=subprocess.PIPE)
return (proc.wait(), proc.stderr.read())