いくつかの特定のフォントを認識するように tesseract 2.x を正常にトレーニングしました。ただし、tesseract にこれらのフォントをすべて同時に認識させることはできないようです。つまり、ソース イメージにはそれらすべてが含まれています。現在、tesseract データの 1 つのセットのみを tessdata フォルダーに配置できます (つまり、1 つのトレーニング済みフォントを含む 1 つのセット)。
tesseract 3.x が複数のフォントを正しく処理することは知っていますが、バージョン 2.x の .NET バインディングと同じ機能を持つ .NET への適切なバインディングがないため、アップグレードできません。
また、フォントごとにすべての前処理と OCR 自体を数回実行することは避けたいと思います。