私は最近、重複した顧客レコードを見つけるためのインデックス作成アルゴリズムを考え出しました。要するに、これはすべて非常にうまく機能します。
ただし、私の問題は、「Diviér」が「Divier」と一致するか、「Aether」が「Æther」と一致する必要があることです。libicu または boost::locale を使用すると分音記号を削除でき、問題は wstring を使用するため、問題ありません。ただし、ここに私の問題があります。単語を正規化/ラテン語化すると、一致が意味をなさなくなる可能性があるという意味で意味が変わります。これが名前に受け入れられるかどうかについての意見をお願いします...
また、誰かが中国の名前を持っている場合はどうなりますか? これは、この方法では正規化できませんね。
これにアプローチする方法について何か推奨事項はありますか?