PDFファイルからテキストを抽出したいと思います。tesseract (ターミナルで動作) と textract (この指示に従って) を正常にインストールできました。
ただし、コードを実行すると、エラーが発生しました。
text = textract.process(
'/Users/Text/en.pdf',
method='tesseract',
language='eng',
)
エラーは次のとおりです。
/usr/local/lib/python3.4/site-packages/textract-1.4.0-py3.4.egg/textract/parsers/pdf_parser.py in extract_tesseract(self, filename, **kwargs)
62 page_content = TesseractParser().extract(page_path, **kwargs)
63 contents.append(page_content)
---> 64 return ''.join(contents)
65 finally:
66 shutil.rmtree(temp_dir)
TypeError: sequence item 0: expected str instance, bytes found
いくつかの変更を試みましたが、機能せず、同じエラーが発生しました。
return b''.join(contents)
contents = [str(item) for item in contents]
前に挿入return
contents = [item.decode("utf-8") for item in contents]
前に挿入return