一部の PDF ドキュメントからデータを取得する必要があるプロジェクトに取り組んでいます。
現在Foxit toolkit
、ドキュメントをtxtに変換するために(スクリプトから呼び出して)使用しており、それを繰り返し処理しています。これにはかなり満足していますが100$
、このような小さなプロジェクトには手が出ません。
私は見つけることができるすべての無料のコンバーター (
xpdf
、 などpdftotext
) をテストしましたが、それらはそれをカットしません。データを見つけるために単語を使用できない方法でフォーマットを台無しにします。Python
のようなモジュールをいくつか試してみましpdfminer
たが、 ではうまく動作しないようですPython 3
。携帯電話会社からデータを取り寄せているため、PDF化する前のデータを入手できません。
少なくとも改行を適切にたどるPDFまたはコンバーターからデータを取得する方法を探しています。
更新: PyPDF2は、pdf ドキュメントからテキストをまったく取得していません。