python - 画像を含むPDFページを取得する

Question

少なくとも1つの画像を含むすべてのページ（たとえば、ページ番号）を見つけるためのプログラムによる解決策を探しています。画像自体は必要ありません。必要なのはページ番号だけです。シェルスクリプトソリューションまたはPythonソリューションが推奨されますが、このタスクを完了するのに役立つすべてのものは問題ありません。

背景：私はPDFをOCRしているので、どのページでOCRを実行するのが理にかなっているのかを知る必要があります。

score 1 · Accepted Answer

1つの解決策は、パッケージpdfimagesのユーティリティであるを使用することです。poppler-utilsPDFに保存されている画像に関する情報を出力できます。

$ pdfimages -list file.pdf
page   num  type   width height color comp bpc  enc interp  object ID
---------------------------------------------------------------------
   1     0 image     200   197  rgb     3   8  jpeg   no         7  0

ページ番号は1つずつ（1から数えて）、identify（ImageMagikパッケージから）すべてのページ番号を表示できます。

$ identify -format '%p ' file
0 1 2 3

これらの2つのコマンドから、2、3、4ページには画像が含まれていないのに対し、1ページには画像が含まれていることがわかります。

python - 画像を含むPDFページを取得する

1 に答える 1

Related

Reference