0

(これは、テキストを抽出しようとしているノイズを除去した画像です)PythonでTesseract-OCRとOpenCVを使用して、画像(jpgファイル)のテキスト部分を検出しようとしています。画像のテキスト部分はトルコ語であるため、Tesseract-OCR ファイルにある「トルコ語のトレーニング済みデータ (tur)」を使用しています。tesseract を使用する前に、膨張と侵食を適用してノイズを除去しました。

問題は、特定の領域の一部の文字を検出できる場合でも、検出はほとんど成功せず、トルコ語の文字を検出できないことです。何か方法を知っていますか、またはより多くの成功を収めるための提案はありますか? 以下は私のコードです:

import pytesseract
from PIL import Image
import cv2

img= cv2.imread('C:\Users\gulsa\Desktop\Tesseract-OCR\alm98_2.jpg')
img = Image.open('alm98_2.jpg')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-
OCR/tesseract'

tex = pytesseract.image_to_string(Image.open('alm98_2.jpg'),lang='tur')
print(tex)

前もって感謝します!

4

1 に答える 1