事業所の名前と住所を、重複している可能性のある別の事業所の名前と住所と比較しようとしています。問題は、名前と住所は人が手動で入力することが多いため、明らかにさまざまな違いがあることです。
ここではいくつかの例を示します。
セントvs.セントvs.ストリート
Ste。14 vs. Ste 14 vs. Suite 14 vs.#14
NE 39th Ave. vs. 39th Ave. vs. 39th Avenue vs. NE 39th Avenue
そして、かなり多くのことが可能です...
プログラムで正規表現を(Pythonを使用して)記述して、これらのわずかな違いをキャッチする名前とアドレスを比較したいと思います。実際にまったく同じように見えるアドレスをよく見かけますが、そうでないアドレスについては、正規表現で完全に拒否して同じではないと言ってほしくないのです。
同じことが地名にも当てはまることがあります。(実際の)例:
「エルドラド」対「エルドラドメキシカンレストラン」
「イーストアトランタコーヒーショップ」と「ジョーズイーストアトランタコーヒーショップ」
「VillageRestaurant」と「Baba'sVillage」<----確認したところ、どちらもまったく同じ住所と電話番号だったので、技術的には重複しています。
「DjrCleaningEnterprises」と「DJRCleaningEnterprisesInc」
これを実行する方法やコードのアイデアについて何か提案があれば、私は今のところ単純な正規表現の方法しか知らないので、それをいただければ幸いです。私はこれまでにこれほど大きな問題を抱えたことはありません...
ありがとう。