0

PythonでPDFファイルのコンテンツを1行ずつ取得するにはどうすればよいですか?stackoverflowで検索しましたが、良い答えが見つかりませんでした。注:pyPdfは、可能であればslateとpdfminerを使用してアサーションエラーを発生させます。

4

1 に答える 1

0

コマンドラインから:python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf

その後、作成したテキストファイルを取得して使用できますfor line in file:

効率的にしたい場合は、pdf2txt.pyを変更しoutfp、python iostringにする必要があります。これにより、ファイルを作成してから読み取る必要がなくなります。

于 2012-04-04T02:10:36.840 に答える