duplicate-data - 重複顧客の検出

Question

複数のテーブルに正規化された顧客データがたくさんあります。顧客が同じである可能性があると推測するための最良の基準を決定したいと考えています。重複の数を最小限に抑えることと、誤検出を最小限に抑えることとの間でバランスを取る必要があるため、潜在的な重複についてユーザーが質問するのを妨げる必要があります。

|| 姓名と電話番号の組み合わせを探しています || 電子メールアドレス。

最初の質問は、顧客が別の顧客と同じかどうかを判断するための適切な基準は何かということです。

2 番目の質問は、この特定のアプリケーションについて、過去 2 か月以内にサインアップした顧客の重複のみを検出したいということです。これにより、検出基準がまったく変更されますか?

score 1 · Accepted Answer

顧客が重複アカウントの所有者であるかどうかをどのように尋ねますか?

「ヘイ、サム・ジョーンズ、あなたの地域に別のサム・ジョーンズがいます。彼のメールアドレスは sam.jones@abc.com で、あなたの最新の登録メールアドレスは sam.jones@apple.com です。あなたは同じ人ですか? /女の子？"

上記があなたのシナリオに近い場合でも、個人情報が漏洩しています. つまり、もう一方の Sam Jone の電子メールアドレスです。

通常、顧客が同じ電子メールアドレスでサインアップすることを許可しません。次に、顧客がサインアップする電子メールアドレスが有効であることを確認します。そうすれば、電子メールのタイプミスで再度サインアップしても、それを検証できません。

score 0 · Accepted Answer

この質問がまだ興味がある場合は、このツールを確認してください https://sourceforge.net/projects/deduper/

このツールは、主にこの質問で言及した目的のために作成しました

score 0 · Accepted Answer

An important thing is to choose attributes that are unlikely to change. If you use something like telephone number or email address, you risk having duplicates any time someone changes ISPs or mobile phone providers.

If these customers are customers that have made purchases in the past, you can store a hash of their credit card number and a hash of their billing address. Whenever they make another purchase, hash their payment info and compare it to your database. (notice I said to store a hash, NOT their actual payment info)

duplicate-data - 重複顧客の検出

3 に答える 3

Related

Reference