1

Python を使用して pdftotext を実行しようとしていますが、何らかの理由でコードが機能しません。以下を実行すると、 content 変数に PDF のコンテンツが含まれると予想されますが、得られる結果は単なる空の文字列です。

私が欠けているものを誰か知っていますか?

def getPDFContent(path):
    path = "/path/to/a valid/pdffile.pdf"

    process = subprocess.Popen(["pdftotext", path], shell=False, 
        stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
    content, err = process.communicate()[0:2]
    return content, err
4

1 に答える 1

2

デフォルトでpdftotextは、stdoutには何も出力されませんが、代わり.txtにpdfと同じベース名のファイルが作成されます。stdoutのテキストを取得する-には、呼び出しの2番目のパラメーターとしてpdftotext:を追加します。

process = subprocess.Popen(["pdftotext", path, "-"], shell=False, 
    stdout=subprocess.PIPE, stderr=subprocess.STDOUT)
于 2010-03-18T18:52:31.513 に答える