3

2 つまたは 3 つのフォントしか使用されていないドキュメントの白黒画像があるとします。3 つのうちの 1 つはタイトルに使用され、もう 1 つは小さなフォント (または、少なくとも非常にプレーン) に使用されます。たとえば、小さなテキストの 1 つが次のようになります。

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

「Best Soup」がイタリック体などの特定の凝ったフォントを使用していることを教えてくれる、大きく凝った OCR システムは必要ありません。「Best Soup」は「水道水」とはかなり異なるフォーマットであり、「Best Soup」と「Sandwich」はおそらく同じフォーマットを使用しており、「Sandwich」は「tap water」よりも大きく/凝っていることを教えてくれるシステムが必要なだけです。水。"

関連する場合は、Tesseract を使用して、実際の OCR と境界ボックスの検出 (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html) を行います。

この単純なフォーマット分類を行うために使用できるものはありますか?

編集:

腕や足を犠牲にせずにこれを行うものはありますか?

4

1 に答える 1

1

tesseractがあなたが説明したタスクを解決できるかどうかはわかりませんが、良いocrエンジンはフォントスタイルを検出するべきだと思います. たとえば、ABBYY OCR SDKは太字/斜体のフォント スタイルを識別するだけでなく、出力で使用する適切なフォント フェイスを定義することもできます。

あなたの説明に基づいて、ヘッダーレベルなどのドキュメントスタイル階層を決定しようとしていると思います.ABBYY FineReader Engineはこの機能を提供し、フォントサイズとスタイルに基づくテキスト目的ルーチンに関与していません. さらに、最高の ocr 品質を提供し、無料で試すことができます。商用ソフトウェアを計画している場合は、試してみることを検討してください。私は @ ABBYY で働いており、必要に応じて OCR SDK の詳細情報を提供できます。

よろしくお願いします。

于 2011-08-03T13:13:15.890 に答える