Visual Studio 2008でSSISを使用して、顧客テーブルでファジーグループ化を実行しています。
列ID名Eメールなど
同じ電子メールアドレスを持つ重複した顧客がテーブルにいます。現在、Fuzzyグループを使用して、手動チェックのために重複を識別できます。
また、ほとんど重複しているが、句読点が余分にあるレコードもいくつかあります。
例えば
ID Name Email
1 bob bob.bob@bob.com
2 bob bob.bob@bob.com
3 bob bob..bob@bob.com
7 tom tom@tom.com
9 frog tom@tom..com
現在、ID 1と2を一致させることができますが、1、2、3を一致させて、同じキーにグループ化する必要があります。
また、7と9も一致します。これは、二重の終止符を無視して、1つの終止符としてのみ表示したいためです。また、名前は関係ありません。現在重要なのはメールアドレスの列だけです。
任意の提案と助けてください。