4

PDF ドキュメントからヘッダーやフッターを抽出することは可能ですか?

いくつかのオプション (PDFMiner、Ruby gem pdf-extract、PDF 形式の仕様の調査など) を試してみたところ、ヘッダー/フッター情報がまったく利用できないのではないかと疑い始めています。

(可能であればPythonからこれを行いたいのですが、他の代替手段が実行可能です。)

4

1 に答える 1

6

ページのヘッダーとフッターは、ページ コンテンツの残りの部分とは別のコンテンツ パーツに配置されているわけではありません (少なくともそうである必要はありません)。したがって、一般的に、PDF からヘッダーとフッターを確実に抽出する方法はありません

ただし、PDF コンテンツ全体を調べて、どの部分がヘッダーおよび/またはフッターであるかを推測しようとするヒューリスティックを試して使用することは可能です。

分析したい PDF がかなり均一である場合 (たとえば、すべてが同じ発行者によって作成され、外観が似ている場合)、これは実現可能かもしれません。ただし、ソース PDF が多様であるほど、ヒューリスティックが複雑になり、結果の精度が低下する可能性があります。

于 2013-10-16T10:37:49.600 に答える