python-2.7 - Tesseract-OCR と OpenCV を使用したトルコ語文字認識

翻译自：https://stackoverflow.com/questions/47138629 2017-11-06T13:58:06.713

1950 次

PythonでTesseract-OCRとOpenCVを使用して、画像(jpgファイル)のテキスト部分を検出しようとしています。画像のテキスト部分はトルコ語であるため、Tesseract-OCR ファイルにある「トルコ語のトレーニング済みデータ (tur)」を使用しています。tesseract を使用する前に、膨張と侵食を適用してノイズを除去しました。

問題は、特定の領域の一部の文字を検出できる場合でも、検出はほとんど成功せず、トルコ語の文字を検出できないことです。何か方法を知っていますか、またはより多くの成功を収めるための提案はありますか? 以下は私のコードです：

import pytesseract
from PIL import Image
import cv2

img= cv2.imread('C:\Users\gulsa\Desktop\Tesseract-OCR\alm98_2.jpg')
img = Image.open('alm98_2.jpg')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-
OCR/tesseract'

tex = pytesseract.image_to_string(Image.open('alm98_2.jpg'),lang='tur')
print(tex)

前もって感謝します！

python-2.7 - Tesseract-OCR と OpenCV を使用したトルコ語文字認識

1 に答える 1

Related

Reference