請求書と請求書のPDFファイルからテキストを抽出する必要があります
ファイルのレイアウトは複雑になる可能性がありますが、ほとんどがテーブルで埋め尽くされています。
私は、pdf 形式に関する記事をすでに数十本読んだことがあります。私たちの脳がそれを理解するのはどれほど簡単で、機械がその構造を理解するのはどれほど難しいかということです。
また、Python の pdfminer やいくつかの Java ツールなどのいくつかのツールをダウンロードしました。LA-PDBtextなどのルール ベースのレイアウト抽出を備えたツールもあります。これらはすべて優れたライブラリであり、最後のステップを残します。
Adobe には exportPdf というオンライン サービスもありますが、カスタマイズすることはできません。
要するに、たとえば、構造化された pdf ファイルからテキストを抽出して XML に変換するには、ある程度の手作業が必要であることを理解しています。
From Data Extractorも見つけました。これは、適切なマニュアルを見つけるのが難しく、Windows でのみ実行されますが、抽出ルールを設定する機能を備えた非無料ツールです。
これらのファイルを画像に変換してtesseract-ocrを試すこともできると思いましたが、これ以上時間を費やす前に、ここでアドバイスを求めることにしました。
どなたか経験のある方、ヒントを頂けたら大変助かります。