少なくとも1つの画像を含むすべてのページ(たとえば、ページ番号)を見つけるためのプログラムによる解決策を探しています。画像自体は必要ありません。必要なのはページ番号だけです。シェルスクリプトソリューションまたはPythonソリューションが推奨されますが、このタスクを完了するのに役立つすべてのものは問題ありません。
背景:私はPDFをOCRしているので、どのページでOCRを実行するのが理にかなっているのかを知る必要があります。
1つの解決策は、パッケージpdfimages
のユーティリティであるを使用することです。poppler-utils
PDFに保存されている画像に関する情報を出力できます。
$ pdfimages -list file.pdf
page num type width height color comp bpc enc interp object ID
---------------------------------------------------------------------
1 0 image 200 197 rgb 3 8 jpeg no 7 0
ページ番号は1つずつ(1から数えて)、identify
(ImageMagik
パッケージから)すべてのページ番号を表示できます。
$ identify -format '%p ' file
0 1 2 3
これらの2つのコマンドから、2、3、4ページには画像が含まれていないのに対し、1ページには画像が含まれていることがわかります。