6

Unicode の特定の文字と視覚的に同一の文字を検索したいと考えています。文字の正規分解または互換分解を見つける方法を知っています。しかし、彼らは私が欲しいものを私に与えません。視覚的に同一の (似ていない) 文字を検索したいのですが、それらの唯一の違いはサイズです。

たとえば、(s、S)または(S、S)(コードポイントが異なります)が必要です。(ß, β) や (e, é) は必要ありません。

助言がありますか?ありがとう。

4

1 に答える 1

7

特定の文字については、Unicode 標準のコード チャートの注釈から始めることができます。注釈は、形状の類似性や同一性など、さまざまな理由で他の文字を参照することがよくあります。ただし、注釈はすべてをカバーすることを意図したものではありません。

http://shapecatcher.com/でキャラクターを描いて、それを認識するように依頼することもできます。多くの場合、視覚的に類似した代替案の長いリストが表示されます。

@TedHopp がコメントに書いているように、ビジュアル アイデンティティはフォントに依存します。たとえば、「s」と「S」は同じ形である必要はありません。ほとんどのフォントでは違います。基本的な形は同じですが、ストローク幅のバリエーション、曲率、セリフなどにさまざまな違いがあります。ただし、一部の文字は、それらを含むどのフォントでも視覚的に同一であると予想できますラテン語の大文字 A、ギリシャ語の大文字 alpha Α、およびキリル文字の А として。

調査の目的は明示されていませんが、Unicode コンソーシアムによってある程度実施されていることを行っている可能性があります。confusables.txtを含むUTS #9Unicode Security Mechanismsなどの関連作業への参照も含まれているUTR #6Unicode Security Considerationsを参照してください。他の目的にも関心があります)。

于 2012-11-07T08:10:57.120 に答える