これが非常に野心的な理由です。OCRが行っているのは、基本的に、限定されたドットのセットを取得し、それを非常に小さなセットの多数のメンバーの1つと一致させようとすることです。あなたがしていることについて話しているのは、キャラクターレベルよりもイディオムです。たとえば、ベイズの定理を方程式として表現すると、次のようになります。
P(A|B) = P(B|A)P(A)/P(B)
それらの文字のそれぞれを正常に認識したとしても、それを持って、方程式の特徴を方程式のファミリーにパッチする必要があります。言うまでもなく、これはベイズの定理の1つの表現にすぎません。Sigma Notation(LaPlaceのバリアント)を使用するものもあれば、ログを使用するために特殊なケース0を使用する必要がないものもあります。
ところで、これはベイズで行うことができます。これについてのいくつかの考えがあります:
- まず、方程式を分類として扱う必要があります。また、シグマ表記の存在やログの適用など、一連の機能の観点から方程式を記述する必要があります。
- 次に、システムは、認識したいすべての方程式、おそらくそれぞれのいくつかのバリエーション(上記のとおり)を表示することによってトレーニングされます。その場合、これらの分類には特徴の分布があります。
- 最後に、新しい方程式が表示された場合、システムはこれらの各機能を見つけてから、分類をループして、方程式が特定の分類に一致する全体的な確率を計算する必要があります。
これはスパムエンジンの90%が行われる方法ですが、そこでは2つの分類しかありません。スパムとスパムではなく、機能の表現はばかばかしいほど単純です。異なるドキュメントタイプでの単語の出現率だけです。
興味深い問題、確かに簡単な答えはありません。