ocr - tesseract 2.x - 同時に複数のフォントを使用する

Question

いくつかの特定のフォントを認識するように tesseract 2.x を正常にトレーニングしました。ただし、tesseract にこれらのフォントをすべて同時に認識させることはできないようです。つまり、ソースイメージにはそれらすべてが含まれています。現在、tesseract データの 1 つのセットのみを tessdata フォルダーに配置できます (つまり、1 つのトレーニング済みフォントを含む 1 つのセット)。

tesseract 3.x が複数のフォントを正しく処理することは知っていますが、バージョン 2.x の .NET バインディングと同じ機能を持つ .NET への適切なバインディングがないため、アップグレードできません。

また、フォントごとにすべての前処理と OCR 自体を数回実行することは避けたいと思います。

score 2 · Accepted Answer

Tesseract 2.0x の場合、言語データパックは複数のフォントを認識できます。トレーニングファイルをクラスタ化しましたか?

Tesseract 3.01 用の優れた .NET ラッパーがいくつかあります。詳細については、アドオンページを確認してください。

ocr - tesseract 2.x - 同時に複数のフォントを使用する

1 に答える 1

Related

Reference