java - データのクラスタリング

Question

私は自分のデータベースに何百万もの名前を保存していますが、これらの名前は顧客の名前にすぎません
。音声的に類似している名前を内部でクラスター化する必要があります。
私が使用しているアプローチの 1 つは、各名前をデータベースベースから取得したいくつかの選択的な類似の名前と照合することです。 on sound-ex、meta-phone、initials..etc
しかし、それは非常に遅いです。
今、名前ごとに一意の ID を生成し、同様の一意の ID をクラスタリングすることを考えていますが、一意の ID を生成できません。名前はインドの名前で、英語のアルファベットを使用して書かれています。
類似の名前をクラスタリングするためのアルゴリズムはありますか? 助けてください

score 0 · Accepted Answer

ここでの重要な問題は、「音声的に類似している」ことです。音素から一意の ID を生成する方法を知る必要があります。

これらの名前がどの言語とアルファベットで保存されているかはわかりません。

おそらく、この問題は音声合成アルゴリズムと共通しています。

http://social.msdn.microsoft.com/Forums/da/netfxbcl/thread/b6b88747-9616-462e-9cf6-78c19da32f38

またはこれはJava用です：

http://voce.sourceforge.net/

java - データのクラスタリング

1 に答える 1

Related

Reference