類似度スコアに基づいて、重複する住所を見つける方法を考え出そうとしています。次の重複アドレスを検討してください。
addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'
addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
NORTH -> N のように、すべてのスペース、コンマ、ダッシュ、ポンド記号を削除して、長い単語を省略形にするために、文字列変換を適用することを計画しています。さて、この出力が得られたら、どうすれば addr_3 を残りのアドレスと比較し、同様のものを検出できますか? 何パーセントの類似性が安全でしょうか? このための簡単なpythonコードを提供できますか?
addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'
addr_3 = '570348THAV'
adrr_4 = '570348AV'
感謝している、
エドゥアルド