私は、Python で書かれた Web フォーラムの不適切な表現のフィルタリングに問題を抱えています。
その一環として、単語を受け取り、特定の文字の代わりに視覚的に類似した文字を使用する、その単語の可能なすべての模擬スペルを返す関数を作成しようとしています (例: s†å©køv€rƒ|øw)。
人々の創造性をカバーするために、このリストを徐々に拡張する必要があると思いますが、出発点として使用できるリストがインターネット上のどこかに浮かんでいますか?
これはおそらく必要以上に深く、ユースケースをカバーするには十分ではありませんが、Unicode コンソーシアムは国際化されたドメイン名に対する攻撃に対処しなければならず、同形異義語 (同じまたは類似の文字を持つ文字) のリストを作成しました。レンダリング):
http://www.unicode.org/Public/security/latest/confusables.txt
少なくとも出発点になるかもしれません。
http://en.wikipedia.org/wiki/Letterlike_Symbols
それほど包括的ではありませんが、より理解しやすいものです。