PDFのURLからテキストを抽出しようとしています。PDFをダウンロードすると、関数でテキストを簡単に抽出できますslate
。ただし、pdf をインポートしio
てテキストを抽出しようとすると、返される出力は何もありません。以下にコードを添付します。
import requests, PyPDF2, io
from io import BytesIO
url = 'https://www.poderjudicial.es/search/contenidos.action?action=accessToPDF&publicinterface=true&tab=AN&reference=e3ca421447bc6b71&encode=true&optimize=20210216&databasematch=AN'
response = requests.get(url)
f = io.BytesIO(response.content)
with f as data:
read_pdf = PyPDF2.PdfFileReader(data)
page = read_pdf.getPage(1)
print(page.extractText())
他の多くの機能を試しましたが、機能しません。私は何か間違ったことをしていますか?