複数 (30) の PDF ファイルがあり、それぞれに 48 ~ 96 ページが含まれています。すべてのページのレイアウトは同じで、他のコンテンツ (数値、グラフ) のみがあります。
背景: これらのページは、ファイバー ケーブル測定の PDF レポートであり、ケーブルの減衰によって並べ替える必要があります。機密事項のため、残念ながらサンプル ファイルを提供できません。
これらのレポートを検証するために、いくつかのコントロール サンプルを作成しています。そのため、レポートをソートする必要があります。問題は次のとおりです。すべての pdf ファイルのすべてのページの非常に特定の部分だけを、並べ替え可能な形式にエクスポートするにはどうすればよいですか?
すでに述べたように、値がページのどこに配置されるかは非常に具体的です。また、既に「解析された」コンテンツであるため、PDF ファイルで「テキストとして」利用できるため、スキャンされず、OCR は必要ありません。
どんな助けでも大歓迎です。現在、その問題を解決する方法がわかりません。そのようなことを行うツール、またはそれを解決するためのプログラミングアプローチである可能性があります。