0
import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
    content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()     

これは、pdf の内容を txt ファイルに書き込んでいるわけではありません。

4

1 に答える 1

0

すべてのページを繰り返し処理し、extractText()次のように呼び出します。

content = ""
for i in range(0, num_pages):
    content += pdfl.getPage(i).extractText() + "\n"

完全な内容を取得したら、'\n' セパレーターを使用して簡単に行を分割できます。

編集: for ループの後で、変数contentsにテキストが含まれているかどうかを確認します。すべての PDF ファイルにテキスト情報が含まれているわけではありません。

于 2013-02-27T12:54:11.533 に答える