2

辞書を使用して単語を照合するオープンソースのocr(おそらくtesseract)を探しています。たとえば、このocrは特定の名前の検索にのみ使用されることを私は知っています。マスターゲストリスト(作成済み)があり、このリストをocrで1秒以内にスキャンし、名前のデータベースと照合したいとします。

従来のocrはすべての文字を読み取ろうとし、結果を100個の名前と相互参照できることを理解していますが、これには時間がかかりすぎます。OCRがそれらの100語だけに焦点を合わせていて、他には何もなかった場合、これはすべて一瞬で実行できるはずです。つまり、「Jach」は私のデータベースの名前ではないので、単語が「Jach」である可能性があると推測しても意味がありません。これはデータベース内の実際の名前であるため、ocrはそれが「ジャック」であると推測できるはずです。

これは可能ですか?

4

1 に答える 1

2

それは可能であるはずです。このように考えてください。OCRで「J」を検索する代わりに、「ジャック」を直接検索することもできます。つまり、個別の記号としてです。

したがって、OCRをトレーニング/調整するときは、個々の記号に対して行うのと同じように、単語全体の画像を使用してOCRをトレーニングします。

(この機能がOCRで直接利用できない場合は、最初に単語全体の画像を一意の記号にマッピングし、後でその記号を最終的な単語文字列に変換します)

于 2013-02-25T08:35:44.907 に答える