1

少なくとも1つの画像を含むすべてのページ(たとえば、ページ番号)を見つけるためのプログラムによる解決策を探しています。画像自体は必要ありません。必要なのはページ番号だけです。シェルスクリプトソリューションまたはPythonソリューションが推奨されますが、このタスクを完了するのに役立つすべてのものは問題ありません。

背景:私はPDFをOCRしているので、どのページでOCRを実行するのが理にかなっているのかを知る必要があります。

4

1 に答える 1

1

1つの解決策は、パッケージpdfimagesのユーティリティであるを使用することです。poppler-utilsPDFに保存されている画像に関する情報を出力できます。

$ pdfimages -list file.pdf
page   num  type   width height color comp bpc  enc interp  object ID
---------------------------------------------------------------------
   1     0 image     200   197  rgb     3   8  jpeg   no         7  0

ページ番号は1つずつ(1から数えて)、identifyImageMagikパッケージから)すべてのページ番号を表示できます。

$ identify -format '%p ' file
0 1 2 3

これらの2つのコマンドから、2、3、4ページには画像が含まれていないのに対し、1ページには画像が含まれていることがわかります。

于 2013-02-20T10:08:32.760 に答える