PDFファイルからデータを抽出したい。私はpdfminerツールpdf2txtを使用してpdfをプレーンテキストに変換しています。しかし、作成されたテキストファイルは、データの順序を台無しにしています(テーブルが発生した場所とその後も)。次に、pdf を html に変換しようとしましたが、残念ながら同じ結果になりました。私はpythonが初めてです...また、pdfminerライブラリの広範な機能を理解できませんでした。データの順序を維持する方法はありますか?
質問する
1056 次
1 に答える
2
次の引数を追加してスクリプトを実行してみてください: -M 30 -W .95 -L .03
あなたが説明したのと同じ問題がありましたが、これにより出力が大幅に改善されました。ただし、xpdf の一部である pdftotext.exe を使用すると、はるかに優れた結果が得られます。ここからダウンロードしてください:
http://www.foolabs.com/xpdf/download.html
マイク
于 2012-07-26T00:32:47.987 に答える