PDF ドキュメントからヘッダーやフッターを抽出することは可能ですか?
いくつかのオプション (PDFMiner、Ruby gem pdf-extract、PDF 形式の仕様の調査など) を試してみたところ、ヘッダー/フッター情報がまったく利用できないのではないかと疑い始めています。
(可能であればPythonからこれを行いたいのですが、他の代替手段が実行可能です。)
ページのヘッダーとフッターは、ページ コンテンツの残りの部分とは別のコンテンツ パーツに配置されているわけではありません (少なくともそうである必要はありません)。したがって、一般的に、PDF からヘッダーとフッターを確実に抽出する方法はありません。
ただし、PDF コンテンツ全体を調べて、どの部分がヘッダーおよび/またはフッターであるかを推測しようとするヒューリスティックを試して使用することは可能です。
分析したい PDF がかなり均一である場合 (たとえば、すべてが同じ発行者によって作成され、外観が似ている場合)、これは実現可能かもしれません。ただし、ソース PDF が多様であるほど、ヒューリスティックが複雑になり、結果の精度が低下する可能性があります。