3

複数 (30) の PDF ファイルがあり、それぞれに 48 ~ 96 ページが含まれています。すべてのページのレイアウトは同じで、他のコンテンツ (数値、グラフ) のみがあります。

背景: これらのページは、ファイバー ケーブル測定の PDF レポートであり、ケーブルの減衰によって並べ替える必要があります。機密事項のため、残念ながらサンプル ファイルを提供できません。

これらのレポートを検証するために、いくつかのコントロール サンプルを作成しています。そのため、レポートをソートする必要があります。問題は次のとおりです。すべての pdf ファイルのすべてのページの非常に特定の部分だけを、並べ替え可能な形式にエクスポートするにはどうすればよいですか?

すでに述べたように、値がページのどこに配置されるかは非常に具体的です。また、既に「解析された」コンテンツであるため、PDF ファイルで「テキストとして」利用できるため、スキャンされず、OCR は必要ありません。

どんな助けでも大歓迎です。現在、その問題を解決する方法がわかりません。そのようなことを行うツール、またはそれを解決するためのプログラミングアプローチである可能性があります。

4

1 に答える 1

4

元の質問へのコメントで示したように、ソリューションをプログラムする準備ができています。Java とiText PDF ライブラリの使用を提案します。テキストが実際に抽出可能である限り、文書からテキストを抽出することができます (実際にはグリフを PDF に入れることができますが、グリフから文字へのマッピングは削除できます)。

iText in Action — 2nd Edition第 15 章の ExtractPageContent* サンプルで、iText を使用した PDF テキスト抽出のサンプル コードを見つけることができます。特にExtractPageContentAreaはあなたのケースで興味深いものです。

基本的に、そのサンプルを取得して一般化し、ページ上の複数の領域からテキストを抽出するだけで済みます。

于 2013-01-02T15:47:11.687 に答える