python - pythonpdf行ごと

Question

PythonでPDFファイルのコンテンツを1行ずつ取得するにはどうすればよいですか？stackoverflowで検索しましたが、良い答えが見つかりませんでした。注：pyPdfは、可能であればslateとpdfminerを使用してアサーションエラーを発生させます。

score 0 · Accepted Answer

コマンドラインから：python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf

その後、作成したテキストファイルを取得して使用できますfor line in file:

効率的にしたい場合は、pdf2txt.pyを変更しoutfp、python iostringにする必要があります。これにより、ファイルを作成してから読み取る必要がなくなります。

1 に答える 1