私は、世界中のロケーション アドレス (500k+) のかなり大きなデータベースを持っています。多くの住所は重複しているか、ほぼ重複していますが。新しい住所が入力されるたびに、それがデータベースに既に存在するかどうかを確認し、存在する場合は、既存の緯度/経度を取得して新しいエントリに適用します。別のテーブルにリンクしない理由は、住所が検索対象のグループとして使用されないためです。また、住所の違いが十分にあるため、住所を区別したい場合がよくあります。住所が完全に一致する場合は、その緯度/経度を適用します。そうでない場合は、都市レベルに行って適用します。そこで一致が得られない場合は、別のプロセスを実行する必要があります。
広範な背景が得られたので、問題です。ときどき、緯度/経度が通常の許容誤差範囲をはるかに超えてしまうことがあります。しかし、不思議なことに、通常、これらの緯度/経度の 1 つまたは 2 つだけが範囲外になり、残りのデータは正しい都市名でデータベースに存在します。
どのようにデータをクリーンアップすることをお勧めしますか? geonames データベースを持っているので、理論的には正しいデータを持っています。私が苦労しているのは、これを行うために実行するルーチンは何かということです。
誰かが (低レベルの) データ スクラビングの方向性を教えてくれたら、それは素晴らしいことです。