difflib SequenceMatcher レーションに基づいて、Pandas で文字列のファジー マージを行う方法があるかどうかを調べようとしています。基本的に、次のような 2 つのデータフレームがあります。
df_a
company address merged
Apple PO Box 3435 1
df_b
company address
Apple Inc PO Box 343
そして、私はこのようにマージしたい:
df_c = pd.merge(df_a, df_b, how = 'left', on = (difflib.SequenceMatcher(None, df_a['company'], df_b['company']).ratio() > .6) and (difflib.SequenceMatcher(None, df_a['address'], df_b['address']).ratio() > .6)
私が探しているものに近い投稿がいくつかありますが、どれも私がやりたいことで動作しません. difflib を使用してこの種のあいまいマージを行う方法について何か提案はありますか?