私は会計アプリケーションに取り組んでいます。ユーザーは、アプリケーションで目的の pdf または doc の銀行取引明細書をアップロードします。ドキュメントを読み取り/解析し、金額/小切手番号などを挿入する必要があります...(データベース構造に従って)データベースに。
同じことを達成するのを手伝ってください。
私はこの同じ問題に2週間以上取り組んできましたが、それはかなりの作業であると言わざるを得ません。テキストを抽出するためのphpクラスを見つけることにある程度成功しましたが、問題は、ヒットとミスの.pdf形式のすべてのバージョンで機能するとは限らないことです。そして、自分でドラムを叩くと、エンコーディングと圧縮の問題を理解するのにしばらく時間がかかります。今、私は実際にいくつかのPythonライブラリを見ています。今のところ、これらの1つを最初から作成するのは時間がかかりすぎます。
PDF は表示用に作成されており、内部のデータを操作するためのものではありません。
pdftotext
またはで幸運かもしれませんcatdoc
。