0

私はpdfファイルを含むディレクトリを持っています。ファイル名を wand.image クラスのオブジェクトに渡すときに OCR を実行するコードを作成しました。私が現在やりたいことは、pdfファイルのディレクトリをループし、各pdfに対してOCRされたtxtファイルを生成し、それをいくつかのディレクトリに保存することです。これまでに書いたコードは次のとおりです。

import io
from PIL import Image
import pytesseract
from wand.image import Image as wi




pdf = wi(filename = r"D:\files\aba7d525-04b8-4474-a40d-e94f9656ed42.pdf", resolution = 300)

pdfImg = pdf.convert('jpeg')

imgBlobs = []

for img in pdfImg.sequence:
    page = wi(image = img)
    imgBlobs.append(page.make_blob('jpeg'))

extracted_text = []

for imgBlob in imgBlobs:
    im = Image.open(io.BytesIO(imgBlob))
    text = pytesseract.image_to_string(im, lang = 'eng')
    extracted_text.append(text)

print(extracted_text[0])

問題は、私のコード ("pdf = ..") が表示された場合、コードにファイル名をハードコーディングしましたが、そのディレクトリ内のすべてのファイルを OCR で処理できるように、そこにディレクトリを渡す必要があることです。 .pdf だけを .txt に置き換えたファイル名を持つこれらすべてのファイルを出力として取得する必要があります。どうやってやるの

4

1 に答える 1