私は都市名のデータベースを持っていますが、問題はそれが消毒されていないことです。たとえば、インドのバンガロールが都市である場合、データベースに次の場所がある可能性があります。
- バンガロール
- バンガロール、インド
- インド、バンガロール(スペルミス)
- バンガロール、トップシティ、インド
- バンガロール、メトロポリタン、インド
ここで、このデータをサニタイズして、サニタイズ後に残る唯一のエントリが「インドのバンガロール」になるようにします。LinkedInやFacebookのデータを利用することはできますが、それが可能かどうかわかりません。別のアプローチは、都市名のマスターリストを作成し、それに基づいてサニタイズすることですが、これはコストのかかるアプローチのようです。理想的には、都市名(正しいまたは間違っている)を入力として渡したときに、正しいデータセットから最も一致する都市を返すサービスを探しています。任意のポインタをいただければ幸いです。