python - PDFファイルからコンテンツを取得してtxtファイルに保存する方法

Question

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
content=""
for i in range(0,1):
   content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content) 
f.close()
outpu.close()

これは、pdfファイルからコンテンツを取得してtxtファイルに保存するのではありません...このコードの間違いは何ですか????

score 1 · Accepted Answer

著者からの簡単な例は、これを行うことを提案しています (「ファイル」を実行していないようです):

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("jayabal_appt.pdf", "rb"))

次に、次のことができます。

output.addPage(input1.getPage(0))

確かに、for ループを使用しますが、著者は extractText の使用を提案していません。

ウェブサイトをチェックしてみてください。例はかなり単純です: http://pybrary.net/pyPdf/

でも

pyPdf はメンテナンスされなくなったため、使用はお勧めしません。著者は、代わりに pyPdf2 をチェックアウトすることを提案しています。

簡単な Google 検索でも、pdftotext または pdfminer を試す必要があることが示唆されています。そこにはたくさんの例があります。

幸運を。

python - PDFファイルからコンテンツを取得してtxtファイルに保存する方法

1 に答える 1

Related

Reference