0

多くの場合、同じ人物である人物エンティティの複数のインスタンスがあります。アドレスの First-Last が同じアドレスで同じ場合、それらをマージ/ロールアップするのは簡単です。

ただし、データ入力の不一致により、正確さから少し逸脱する方法が必要です。クレジットカード業界はこれを少しやっていると思います:郵便番号と番地、または通りの名前?...その性質の何か。

マッチングを強化するために、住所文字列を整理し、できるだけ標準的なものにするようにしました ("Hwy" --> "Highway" など)。

一目見ただけで一目瞭然に見えるが、完全に一致するデータがないレコードでも一致するものが必要です。

これが私の最初の考えです。次で構成される文字列を連結します。

First Initial
LEFT8 of the LastName (allows inconsistent endings, such as "Esq." or "CPA")
LEFT3 of Zip
Street Number
LEFT8 of the StreetName (not Addr1 -- "Oak" for "8 N Oak Street")

ここで何か見逃しましたか?通常のデータ入力の不一致を克服するのに十分なほど緩いものにしたと思いますが、誤った一致を回避するのに十分なほどタイトにしました.

4

2 に答える 2

1

大規模な金融機関の名前と住所のデータをクリーンアップするプロジェクトに参加しました。自動的に約98.4%の成功率を達成しましたが、残念ながら、これでも約150,000の不一致が残りました。

問題を攻撃する方法は、(時間の経過とともに)発生する可能性のあるエラーの種類のルールベースを構築し、特定されたクラスのエラーをカバーするようにロジックのあいまいさを拡張することでした。

かなりの量のデータクレンジングは、(英国の)郵便番号と家番号および/または名前を参照することによって実際に行うことができます。英国では、郵便番号の最初の部分を考慮することであいまいさを導入できます。これは、広い領域を決定します。同じことが郵便番号にも当てはまるかどうかはわかりません。

ただし、このアプローチでは、通常の実行から外れたアドレスはうまく処理されません。私自身のアドレスはその一例です。私はボートに住んでおり、その結果、正しいアドレス指定を確実にするために、いくつかの追加のアドレスがあります。

この種の異常は、常に手動による介入が必要になる可能性があります。

ちなみに、同じ住所でFirst-Lastが同じ人をマージ/ロールアップするのは簡単だというあなたの主張に異議を唱える必要があります。データクレンジングで最も困難なケースは、同じ住所に同じ名前の2人の人(たとえば、父と息子)が住んでいた場合でした。同様に、同じ名前の誰かが物件を購入した場合(これは起こります)、再び「再複製」の問題があります。

于 2010-10-19T15:59:32.610 に答える
1

Chris A. さん、このタスクで公式のエキスパート システムを採用することを検討しましたか? 驚くべきことに、アドレスを標準化して効果的に繰り返し処理できるようにすることは、非常に急速に困難になります。SmartyStreets (私が働いている場所) では、それが私たちのビジネスの核心です: このタスクを実行する特定のアルゴリズムの実装です。

これはあなたの正確な質問に対する直接的な答えではないかもしれませんが、あいまい検索クエリを開発する際に、最初から適切なデータを取得するための重要なステップです。言い換えれば、Chris W. が彼の回答で示したように、あいまいなクエリの後でさえ、望まれることがたくさん残っています。

したがって、最初にすべてのアドレスを真に標準化することをお勧めします (アドレスの「オーバーロード」自体を考慮して、2 つのアドレスはまったく異なって見えますが、同じアドレスです)。米国を拠点とする住所の場合は、リスト処理サービスを試すことができます ( CASS-Certified Scrubbingなど。自分で調べてください)。良いものは、重複にフラグを立ててから、行動を起こさせます. 住所が正規化され、フラグが付けられた後は、ビジネスの定義 (苗字など) に基づいて正確な重複をはるかに迅速に取り除くことができます。その時点で、最もトリッキーなアドレス以外のすべてに対してファジー検索を実行し、重複が何であるかについてすでに良い考えを持っています.

于 2012-02-06T20:19:12.383 に答える