0

私はこの問題に何度か遭遇しましたが、私が話していることを誰かが知っていることを期待して、ついに尋ねることにしました。

私がやりたいのは、この形式のchar変換です。

ÆØÅ => AOA
ÉÈÊ => EEE
üÿï => uyi

これまでのところ、私がグーグルに入力できる検索基準に最も近いものは次のとおりです。

  • base64/URLEncodeに似たもの
  • MetaphoneSoundexなどのサウンドアルゴリズム

これは期待どおりに機能しませんでした。ÉÈÊととの間に相関関係はないようでしEEEÆØÅ。したがって、Eに対抗すると、6文字すべてがEに変換されますが、これは私が探していた精度ではありませんでした。

  • オリジンエンコーディング(ASCIIなど)から英数字のみで構成される文字セット/エンコーディングへの変換

Eエンコーディングは、たとえば、の祖先/最も近い(英数字)ネイバーとして認識できる必要があるため、このアプローチについてはあまり自信がありませんÈ

球場の周りにたくさんの言葉を言っているような気がします。

誰かが私が達成しようとしていることを理解していますか、または私が探しているこの「方法」が何と呼ばれているのか知っていますか?

どんなアイデア/考えも非常にありがたいです(そして私は何かを意味します)、

  • ミック
4

1 に答える 1

0

Unicodeコードポイントのデータベースを検討し、それらを最も近いUS-ASCII相当物にマッピングする必要があると思います(可能な場合)。ほとんどの Unicode コードポイントには相当する US-ASCII がないため、比較的まばらなマップになると思います。

うまくいけば、この回答には、あなたが望むものを探すのに役立ついくつかのキーワードが含まれています.

于 2011-06-29T08:09:36.567 に答える