これは SQL Server 固有の質問ではありません。ただし、ここには tSQL 固有のオプションがある場合があります。
私は顧客の詳細をたくさん持っています。彼らの多くは、サービスをキャンセルして辞任します。彼らはまったく新しいアカウントを取得します。そして、私たちのデータ検証はせいぜい大ざっぱです。そのため、電子メール アドレスやその他のデータのタイプミスがよくあります。
質問は 2 つの部分に分かれています。
初め; 氏名、メールアドレス、クレジット カードの下 4 桁、郵便番号、電話番号などの情報があります。データセットを調べて共通の繰り返しのプールを探すことができるアルゴリズム/プロセスはありますか?メールは「類似」しており、郵便番号も同じでした。リピーターでしたか (人間によるマッチング スキルに基づく)?
2番; データ セット間の類似性を表現するにはどうすればよいでしょうか。つまり、5 つのフィールドのうち 3 つが一致する場合に、一致と呼ばれるアイテムが存在するでしょうか。すべての異なるデータポイント間のある種の類似性指標? 名前にある程度soundexを使用できることは知っています...メールアドレスについてはよくわかりません。
だから、私は簡単な解決策と汚い解決策の両方に興味があります (今夜、分析をまとめます。しかし、この問題に取り組む「正しい」方法にも非常に興味があります)。尊敬する。=)