1

いくつかの特定のフォントを認識するように tesseract 2.x を正常にトレーニングしました。ただし、tesseract にこれらのフォントをすべて同時に認識させることはできないようです。つまり、ソース イメージにはそれらすべてが含まれています。現在、tesseract データの 1 つのセットのみを tessdata フォルダーに配置できます (つまり、1 つのトレーニング済みフォントを含む 1 つのセット)。

tesseract 3.x が複数のフォントを正しく処理することは知っていますが、バージョン 2.x の .NET バインディングと同じ機能を持つ .NET への適切なバインディングがないため、アップグレードできません。

また、フォントごとにすべての前処理と OCR 自体を数回実行することは避けたいと思います。

4

1 に答える 1

2

Tesseract 2.0x の場合、言語データ パックは複数のフォントを認識できます。トレーニング ファイルをクラスタ化しましたか?

Tesseract 3.01 用の優れた .NET ラッパーがいくつかあります。詳細については、アドオンページを確認してください。

于 2012-10-13T14:11:00.903 に答える