1

PDFファイルからデータを抽出したい。私はpdfminerツールpdf2txtを使用してpdfをプレーンテキストに変換しています。しかし、作成されたテキストファイルは、データの順序を台無しにしています(テーブルが発生した場所とその後も)。次に、pdf を html に変換しようとしましたが、残念ながら同じ結果になりました。私はpythonが初めてです...また、pdfminerライブラリの広範な機能を理解できませんでした。データの順序を維持する方法はありますか?

4

1 に答える 1

2

次の引数を追加してスクリプトを実行してみてください: -M 30 -W .95 -L .03

あなたが説明したのと同じ問題がありましたが、これにより出力が大幅に改善されました。ただし、xpdf の一部である pdftotext.exe を使用すると、はるかに優れた結果が得られます。ここからダウンロードしてください:

http://www.foolabs.com/xpdf/download.html

マイク

于 2012-07-26T00:32:47.987 に答える