Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
PythonでPDFファイルのコンテンツを1行ずつ取得するにはどうすればよいですか?stackoverflowで検索しましたが、良い答えが見つかりませんでした。注:pyPdfは、可能であればslateとpdfminerを使用してアサーションエラーを発生させます。
コマンドラインから:python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf
python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf
その後、作成したテキストファイルを取得して使用できますfor line in file:
for line in file:
効率的にしたい場合は、pdf2txt.pyを変更しoutfp、python iostringにする必要があります。これにより、ファイルを作成してから読み取る必要がなくなります。
outfp