geocoding - 見逃したジオコーディングのクリーンアップ (またはデータクリーニングに関する一般的なアドバイス)

Question

私は、世界中のロケーションアドレス (500k+) のかなり大きなデータベースを持っています。多くの住所は重複しているか、ほぼ重複していますが。新しい住所が入力されるたびに、それがデータベースに既に存在するかどうかを確認し、存在する場合は、既存の緯度/経度を取得して新しいエントリに適用します。別のテーブルにリンクしない理由は、住所が検索対象のグループとして使用されないためです。また、住所の違いが十分にあるため、住所を区別したい場合がよくあります。住所が完全に一致する場合は、その緯度/経度を適用します。そうでない場合は、都市レベルに行って適用します。そこで一致が得られない場合は、別のプロセスを実行する必要があります。

広範な背景が得られたので、問題です。ときどき、緯度/経度が通常の許容誤差範囲をはるかに超えてしまうことがあります。しかし、不思議なことに、通常、これらの緯度/経度の 1 つまたは 2 つだけが範囲外になり、残りのデータは正しい都市名でデータベースに存在します。

どのようにデータをクリーンアップすることをお勧めしますか? geonames データベースを持っているので、理論的には正しいデータを持っています。私が苦労しているのは、これを行うために実行するルーチンは何かということです。

誰かが (低レベルの) データスクラビングの方向性を教えてくれたら、それは素晴らしいことです。

score 0 · Accepted Answer

これは古い質問ですが、真の原則は決して死ぬことはありませんよね?

私は SmartyStreets という会社の住所確認業界で働いています。アドレスのリストが大量にあり、それらを「クリーンアップ」し、公式基準に磨き上げ、運用のあらゆる面で信頼する必要がある場合は、CASS 認定ソフトウェア (米国のみ。国は大きく異なります。そして、多くはそのようなサービスを公式に提供していません)。

USPS は、CASS 認定ベンダーにアドレスデータの「スクラブ」または「クリーンアップ」(つまり、標準化と検証) のライセンスを付与しています。SmartyStreets のLiveAddressなどのサービスを調べて、アドレスを確認したり、リストを一度に処理したりすることをお勧めします。他にも選択肢はありますが、これが最も柔軟で手頃な価格だと思います。最初のリストをスクラブしてから、API を使用して新しいアドレスを受信したときに検証できます。

更新: JSON をさまざまなことに使用していることがわかりました (ちなみに、JSON はとても使いやすいので気に入っています)。必要なサービスを提供するプロバイダーは多くありませんが、SmartyStreetsは提供しています。さらに、そのサイトのリソースや記事を読むことで、アドレス検証のトピックについて学ぶことができます。

geocoding - 見逃したジオコーディングのクリーンアップ (またはデータ クリーニングに関する一般的なアドバイス)

1 に答える 1

Related

Reference

geocoding - 見逃したジオコーディングのクリーンアップ (またはデータクリーニングに関する一般的なアドバイス)