53

私は、Python で書かれた Web フォーラムの不適切な表現のフィルタリングに問題を抱えています。

その一環として、単語を受け取り、特定の文字の代わりに視覚的に類似した文字を使用する、その単語の可能なすべての模擬スペルを返す関数を作成しようとしています (例: s†å©køv€rƒ|øw)。

人々の創造性をカバーするために、このリストを徐々に拡張する必要があると思いますが、出発点として使用できるリストがインターネット上のどこかに浮かんでいますか?

4

4 に答える 4

59

これはおそらく必要以上に深く、ユースケースをカバーするには十分ではありませんが、Unicode コンソーシアムは国際化されたドメイン名に対する攻撃に対処しなければならず、同形異義語 (同じまたは類似の文字を持つ文字) のリストを作成しました。レンダリング):

http://www.unicode.org/Public/security/latest/confusables.txt

少なくとも出発点になるかもしれません。

于 2012-04-09T13:06:44.383 に答える
16

http://en.wikipedia.org/wiki/Letterlike_Symbols

それほど包括的ではありませんが、より理解しやすいものです。

于 2013-12-12T18:16:08.170 に答える