2 つまたは 3 つのフォントしか使用されていないドキュメントの白黒画像があるとします。3 つのうちの 1 つはタイトルに使用され、もう 1 つは小さなフォント (または、少なくとも非常にプレーン) に使用されます。たとえば、小さなテキストの 1 つが次のようになります。
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
「Best Soup」がイタリック体などの特定の凝ったフォントを使用していることを教えてくれる、大きく凝った OCR システムは必要ありません。「Best Soup」は「水道水」とはかなり異なるフォーマットであり、「Best Soup」と「Sandwich」はおそらく同じフォーマットを使用しており、「Sandwich」は「tap water」よりも大きく/凝っていることを教えてくれるシステムが必要なだけです。水。"
関連する場合は、Tesseract を使用して、実際の OCR と境界ボックスの検出 (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html) を行います。
この単純なフォーマット分類を行うために使用できるものはありますか?
編集:
腕や足を犠牲にせずにこれを行うものはありますか?