python - PDFMINER ツール pdf2txt グラブリングデータの順序

Question

PDFファイルからデータを抽出したい。私はpdfminerツールpdf2txtを使用してpdfをプレーンテキストに変換しています。しかし、作成されたテキストファイルは、データの順序を台無しにしています(テーブルが発生した場所とその後も)。次に、pdf を html に変換しようとしましたが、残念ながら同じ結果になりました。私はpythonが初めてです...また、pdfminerライブラリの広範な機能を理解できませんでした。データの順序を維持する方法はありますか?

score 2 · Accepted Answer

次の引数を追加してスクリプトを実行してみてください: -M 30 -W .95 -L .03

あなたが説明したのと同じ問題がありましたが、これにより出力が大幅に改善されました。ただし、xpdf の一部である pdftotext.exe を使用すると、はるかに優れた結果が得られます。ここからダウンロードしてください：

http://www.foolabs.com/xpdf/download.html

マイク

python - PDFMINER ツール pdf2txt グラブリング データの順序

1 に答える 1

Related

Reference

python - PDFMINER ツール pdf2txt グラブリングデータの順序