個人の名前、住所、電話番号などのデータセットがあります。名前や宛先、電話番号がわずかに異なる個人が複数回表示されます。偽のデータの抜粋を以下に示します。
first last address phone
Jimmy Bamboo P.O. Box 1190 xxx-xx-xx00
Jimmy W. Bamboo P.O. Box 1190 xxx-xx-xx22
James West Bamboo P.O. Box 219 xxx-66-xxxx
... 等々。E.は東、St。は通りと綴られることもあれば、そうでないこともあります。
私がする必要があるのは、名前、住所、電話番号に基づいて各個人を識別するために、約120,000行のデータを実行することです。各レコードを一度に1つずつ手動で実行せずに、これをどのように実行できるかについて、誰かが手がかりを持っていますか?見つめれば見るほど、判断を下し、少なくとも2つまたは3つのフィールドが同じであるかどうかを言わずに、これを1人の個人として扱うことは不可能だと思います。
ありがとう!!
アニ