python - PDF からヘッダー/フッターを抽出 (プログラムによる)

Question

PDF ドキュメントからヘッダーやフッターを抽出することは可能ですか?

いくつかのオプション (PDFMiner、Ruby gem pdf-extract、PDF 形式の仕様の調査など) を試してみたところ、ヘッダー/フッター情報がまったく利用できないのではないかと疑い始めています。

（可能であればPythonからこれを行いたいのですが、他の代替手段が実行可能です。）

score 6 · Accepted Answer

ページのヘッダーとフッターは、ページコンテンツの残りの部分とは別のコンテンツパーツに配置されているわけではありません (少なくともそうである必要はありません)。したがって、一般的に、PDF からヘッダーとフッターを確実に抽出する方法はありません。

ただし、PDF コンテンツ全体を調べて、どの部分がヘッダーおよび/またはフッターであるかを推測しようとするヒューリスティックを試して使用することは可能です。

分析したい PDF がかなり均一である場合 (たとえば、すべてが同じ発行者によって作成され、外観が似ている場合)、これは実現可能かもしれません。ただし、ソース PDF が多様であるほど、ヒューリスティックが複雑になり、結果の精度が低下する可能性があります。

1 に答える 1