SQLサーバーDBに保存されている何十万もの連絡先情報で重複を見つけてマージできる必要があるアプリケーションを開発しています。テーブル内のすべての列を比較する必要があります。各列には重み値があります。比較は、重み値に基づいて機能する必要があります。比較結果と同等性の程度に基づいて、連絡先を自動的にマージするか、ユーザーの注意を引くかを決定する必要があります。重複排除のためのファジー論理アルゴリズムがいくつかあることは知っています。
http://www.melissadata.com/で N-gram または Q-gram ベースのアルゴリズムについて読んでください。このアルゴリズムは、大量のデータセットに対して実行可能ですか? そうでない場合は、何らかのアルゴリズムで私を案内したり、どこから始めればよいか電話したりできますか?
私が達成したいことの例、
Gonzales = Gonzalez (two different spelling of different name)
Smith = Smyth (Phonetic sound the same)
123 Main st = 123 Main street (abbrevation)
Bob Smith = Robert Smith (synonym)