1

最も「異なる」または「認識可能な」NASCII文字を判別する方法を探しています...たとえば、N = 10の場合、0x21から0x7EまでのASCIIセットで最も異なるN文字は何でしょうか。明らかに、文字「X」は「O」(文字)とは非常に異なりますが、「O」(文字)は「0」(ゼロ)に非常に似ています。ゼロと文字Oがどちらか一方としてのみ検出され、それがゼロか文字Oかを心配する必要がないなど、制限されたOCR文字サブセットを想定すると、最も異なるNは何になりますか一般的なOCRエンジン(Tesseractなど)が低品質の入力画像から簡単に認識できる文字はありますか?仮定。「+」や「t」などは、大きく誤解される可能性があります。作ることができます、

ありがとう、ベン

4

2 に答える 2

4

残念ながら、これに対する唯一の答えはないと思います。

フォントによって異なります。0、f、sが表現され、文体が繁栄するさまざまな方法を比較してください。

スキャンされる前にキャラクターが受けるダメージの種類によって異なります。汚れに対してより弾力性のあるもの、カットに対してより弾力性のあるもの、上書きに対してより弾力性のあるものがあります。

印刷、スキャン、およびOCRedを存続させるのに最適な表現を探している場合は、1Dまたは2Dバーコードの方が適しているでしょうか。

于 2009-09-11T19:13:02.307 に答える
1

この質問に答える唯一の方法は、テストすることです。文字ごとにサンプルのセットを作成し、各サンプルでOCRを実行します。OCRが最も頻繁に正しく理解する文字は、最も「認識可能」です。OCRが最も頻繁に間違える文字は、最も「異なる」ものです。

于 2009-09-11T19:02:20.240 に答える