1

Visual Studio 2008でSSISを使用して、顧客テーブルでファジーグループ化を実行しています。

列ID名Eメールなど

同じ電子メールアドレスを持つ重複した顧客がテーブルにいます。現在、Fuzzyグループを使用して、手動チェックのために重複を識別できます。

また、ほとんど重複しているが、句読点が余分にあるレコードもいくつかあります。

例えば

    ID   Name  Email
    1    bob   bob.bob@bob.com 
    2    bob   bob.bob@bob.com 
    3    bob   bob..bob@bob.com
    7    tom   tom@tom.com 
    9    frog  tom@tom..com 

現在、ID 1と2を一致させることができますが、1、2、3を一致させて、同じキーにグループ化する必要があります。

また、7と9も一致します。これは、二重の終止符を無視して、1つの終止符としてのみ表示したいためです。また、名前は関係ありません。現在重要なのはメールアドレスの列だけです。

任意の提案と助けてください。

4

1 に答える 1

0

あいまいグループ化変換の前に派生列変換を使用して、不要な文字を削除します。

REPLACE([Email], "..", ".")
于 2013-01-31T12:57:13.847 に答える