2

複数のテーブルに正規化された顧客データがたくさんあります。顧客が同じである可能性があると推測するための最良の基準を決定したいと考えています。重複の数を最小限に抑えることと、誤検出を最小限に抑えることとの間でバランスを取る必要があるため、潜在的な重複についてユーザーが質問するのを妨げる必要があります。

|| 姓名と電話番号の組み合わせを探しています || 電子メールアドレス。

最初の質問は、顧客が別の顧客と同じかどうかを判断するための適切な基準は何かということです。

2 番目の質問は、この特定のアプリケーションについて、過去 2 か月以内にサインアップした顧客の重複のみを検出したいということです。これにより、検出基準がまったく変更されますか?

4

3 に答える 3

1

顧客が重複アカウントの所有者であるかどうかをどのように尋ねますか?

「ヘイ、サム・ジョーンズ、あなたの地域に別のサム・ジョーンズがいます。彼のメールアドレスは sam.jones@abc.com で、あなたの最新の登録メールアドレスは sam.jones@apple.com です。あなたは同じ人ですか? /女の子?"

上記があなたのシナリオに近い場合でも、個人情報が漏洩しています. つまり、もう一方の Sam Jone の電子メール アドレスです。

通常、顧客が同じ電子メール アドレスでサインアップすることを許可しません。次に、顧客がサインアップする電子メール アドレスが有効であることを確認します。そうすれば、電子メールのタイプミスで再度サインアップしても、それを検証できません。

于 2012-04-12T23:46:23.367 に答える
0

この質問がまだ興味がある場合は、このツールを確認してください https://sourceforge.net/projects/deduper/

このツールは、主にこの質問で言及した目的のために作成しました

于 2012-10-29T22:07:51.580 に答える
0

An important thing is to choose attributes that are unlikely to change. If you use something like telephone number or email address, you risk having duplicates any time someone changes ISPs or mobile phone providers.

If these customers are customers that have made purchases in the past, you can store a hash of their credit card number and a hash of their billing address. Whenever they make another purchase, hash their payment info and compare it to your database. (notice I said to store a hash, NOT their actual payment info)

于 2012-04-13T00:06:22.753 に答える