私は本からの写真である55000の画像ファイル(JPGとTIFF形式の両方で)を持っています。
各ページの構造は次のとおりです。
いくつかのテキスト
---(水平線)---
数
いくつかのテキスト
---(水平線)---
別の番号
いくつかのテキスト
任意のページに0から4本の水平線が存在する可能性があります。
横線のすぐ下にある数字を見つける必要があります。
しかし、数字は1ページ目から始まり、厳密に相互に続いているので、数字を見つけるためにそれを読む必要はありません。水平線の存在を検出するだけで、より簡単で安全なはずです。番号を検出するためにページをOCRしようとしています。
アルゴリズムは、基本的に次のようになります。
for each image
count horizontal lines
print image name, number of horizontal lines
next image
問題は、「水平線を数える」部分を実行するのに最適な画像ライブラリ/言語は何でしょうか。