視覚的な類似性に基づいてある種の「交換コスト」を計算できる表を探している場合、私はしばらくそのようなものを探していましたが、ほとんど成功しなかったので、新しいものとして調べ始めました。問題。私は OCR を使用していませんが、入力ミスした文字の確率的検索で検索パラメーターを制限する方法を探しています。人間が文字を視覚的に混同したためにタイプミスしているため、同じ原則が適用されます。
私のアプローチは、8 ビット フィールドのストローク コンポーネントに基づいて文字を分類することでした。ビットは左から右へ:
7: Left Vertical
6: Center Vertical
5: Right Vertical
4: Top Horizontal
3: Middle Horizontal
2: Bottom Horizontal
1: Top-left to bottom-right stroke
0: Bottom-left to top-right stroke
小文字の場合、左側のディセンダーはビット 1 に、右側のディセンダーはビット 0 に対角線として記録されます。
そのスキームで、視覚的な類似性に従ってキャラクターをランク付けしようとする次の値を思いつきました。
m: 11110000: F0
g: 10111101: BD
S,B,G,a,e,s: 10111100: BC
R,p: 10111010: BA
q: 10111001: B9
P: 10111000: B8
Q: 10110110: B6
D,O,o: 10110100: B4
n: 10110000: B0
b,h,d: 10101100: AC
H: 10101000: A8
U,u: 10100100: A4
M,W,w: 10100011: A3
N: 10100010: A2
E: 10011100: 9C
F,f: 10011000: 98
C,c: 10010100: 94
r: 10010000: 90
L: 10000100: 84
K,k: 10000011: 83
T: 01010000: 50
t: 01001000: 48
J,j: 01000100: 44
Y: 01000011: 43
I,l,i: 01000000: 40
Z,z: 00010101: 15
A: 00001011: 0B
y: 00000101: 05
V,v,X,x: 00000011: 03
現状では、これは私の目的には原始的すぎて、さらに作業が必要です。ただし、それを使用したり、目的に合わせて調整したりできる場合があります。スキームはかなり単純です。このランキングは等幅フォントのランキングです。サンセリフ フォントを使用している場合は、値を再加工する必要があります。
この表は、小文字と大文字のすべての文字を含むハイブリッド表ですが、大文字のみと小文字のみに分割すると、より効果的であることが証明される可能性があり、特定の大文字と小文字のペナルティを適用することもできます.
これは初期の実験であることを覚えておいてください。それを改善する方法 (たとえば、ビット シーケンスを変更するなど) を見つけた場合は、ぜひお気軽に実行してください。