URLからPDFを読み込もうとしています。多くのスタックオーバーフローの提案に従い、PyPdf2 FileReader を使用して PDF からテキストを抽出しました。私のコードは次のようになります:
url = "http://kat.kar.nic.in:8080/uploadedFiles/C_13052015_ch1_l1.pdf"
#url = "http://kat.kar.nic.in:8080/uploadedFiles/C_06052015_ch1_l1.pdf"
f = urlopen(Request(url)).read()
fileInput = StringIO(f)
pdf = PyPDF2.PdfFileReader(fileInput)
print pdf.getNumPages()
print pdf.getDocumentInfo()
print pdf.getPage(1).extractText()
最初のリンクのテキストを正常に抽出できました。しかし、2番目のpdfに同じプログラムを使用すると. 私はテキストを取得しません。ページ番号とドキュメント情報が表示されるようです。
ターミナルを介して Pdfminer からテキストを抽出しようとしたところ、2 番目の pdf からテキストを抽出できました。
PDFの何が問題なのか、または私が使用しているライブラリに欠点がありますか?