PDF抽出ツールを作成しました。サンプル画面を添付しました。ユーザーはPDFファイルをロードして、必要なデータ領域を選択できます。次に、PDF座標とページ番号を取得し、テンプレートとして保存します。ユーザーがPDFファイルのリストを提供すると、ツールはテンプレートファイルに従ってデータを抽出できるようになります。私のツールはこれに非常によく似ています。
現在、問題は、一部のPDFで、抽出に必要なデータの一部が次のページにシフトされる場合があります。(シフトの理由は、例を挙げます。購入したアイテムのリストの請求書を考える場合、「合計値」が印刷される場所は、購入したアイテムの数によって異なります。長いリストの場合、合計はそれ以外の場合は下、中央または上近く)。
そのため、座標を取得するのではなく、pdfの構造を特定することを考えています。
しかし、私にはそれを行う明確な考えがありません。何かを共有してください、あなたはこの問題を解決するのに役立つと思います。PDFからデータを取得しようとしていることをもう一度繰り返します。したがって、PDFファイルの構造をキャプチャすることが可能です。
私の考えは、構造を特定できれば、値がどこにあるかを言うことができるということです。たとえば、pdfをhtmlに変換し、htmlタグの値をナビゲートしようとしました。(body-> div-> table-> td->など)しかし、成功しませんでした.. :(