さまざまな形式の顧客名を検証するためのアルゴリズムまたは標準はありますか?
つまり、
- J・スミス
- ジョンスミス
- ジョン・L・スミス
- J・ルイス・スミス
- ジョン・ルイス・S.
同一人物である可能性があり、検証に合格する必要があります。
ありがとう
Figure out if a business name is very similar to another one -私自身、名前を正規化するための非常によく似たアプローチに取り組んできたので、Pythonは間違いなく役に立ちます。
単一のスタンドアロン メトリックでは十分ではないことに注意してください。アンサンブル アプローチは、最終的に一致した単語の強度を返す文字 N グラム マッチング、編集距離などを考慮して実装する必要があります。一致したキーワードの強度を計算する式を考案し、名前のリストが使い果たされたら、設定した特定のしきい値を下回る強度を持つ名前/単語のアルゴリズムを再実行します. これにより、一致/強度の値がより強力な名前の他のクラスターに名前が共鳴します。
また、精度と再現率のトレードオフにも注意する必要があります。上記のアプローチでは、精度が高すぎることがわかりましたが、再現率はそれほど大きくありません。