python - Python 3.5.0を使用してWindows 8でPDFのテキストを抽出する

Question

windows8 のスレートパッケージを使用して、python 3.5.0 を使用して Pdf ファイルからテキストを抽出したいと考えています。

問題:スレートパッケージを正常にインストールしましたが、スレートをインポートしようとすると、特定のエラーが発生します。不足しているものを提案してください。

エラー:

トレースバック (最新の呼び出しが最後): ファイル ""、1 行目、インポートスレートファイル "C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site-packages\slate-0.4.1 -py3.5.egg\slate__init__.py"、66 行目、スレートインポート PDF から

ImportError: 名前 'PDF' をインポートできません

score 3 · Accepted Answer

popplerライブラリからpdftotext( Windows バージョン) を試すことができます。

スタンドアロンプログラムとして、Python は必要ありません。しかし、次のように、Python からサブプロセスとしてよく使用します。

import subprocess

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)

score 2 · Accepted Answer

スレートは PDFMiner に依存します (Python 3 はサポートされていません)。

次の方法でインストールを試すことができます。

pip install PDFMiner

私は pdfminer3k - pypi - をインストールしましたが、最初はうまく反応しませんでした (そしてドキュメントは良くありませんでした) 。これらのいずれかが満たされているかどうか教えてください。

score 2 · Accepted Answer

pdfminer.sixをインストールできます

pip install pdfminer.six

https://pypi.python.org/pypi/pdfminer.six/20160614

python - Python 3.5.0を使用してWindows 8でPDFのテキストを抽出する

3 に答える 3

Related

Reference