約 1000 店舗の情報を含む MySQL データベース テーブルがあります。現在、Excel スプレッドシートをアップロードして、より多くのショップをインポートする予定であり、重複を避けようとしています。
- ショップの名前は同じかもしれませんが、住所が同じになることはありません。
- 店は同じ住所を持っているかもしれませんが、決して同じ名前ではありません
しかし、ここに私の問題があります。
- ストアのスペルが間違っている可能性があります
- アドレスのスペルが間違っている可能性があります
現在、データを一時テーブルにインポートしています。今、輸入店と既存店を比較するにはどうするのがベストなのだろうかと考えています。
私の計画は、各行を見て、お店を比較することです.
- まず、a.name = b.name AND a.street = b.street を比較します。マッチすると、ショップが削除されます。
- 次に、名前と通りについてレーベンシュタイン比較を行います。ここでは、結果が重複しているかどうかを判断するために、結果を手動で確認する必要があるでしょう。
この種のデータ比較の経験がある人はいますか?
更新
良い回答をありがとう。
比較に使用されるフィールドは次のとおりです。
- 名前
- 住所
- 郵便番号
- 街
- 国
私はこれらの線に沿って何かを考えています:
name = Lavenshtein および country = country の行を選択します。
そうすれば、小さなリストを操作するだけで済みます。
次に、名前と住所をより徹底的に比較し始めます。