sql-server-2005 - SQLServer2005を使用して可能性のある重複をあいまい一致させるための優れたSQL戦略

Question

COMPANYNAMEやADDRESSLINE1などのフィールドに一致する大規模なデータベースで重複する可能性のあるレコードを見つけたい

例：

次のCOMPANYNAMEのレコードの場合：

「Acme、Inc。」

クエリで、これらのCOMPANYNAME値を持つ他のレコードを可能な限り重複して吐き出したいのですが。

「アクメ・コーポレーション」
「Acme、Incorporated」
「アクメ」

結合、相関サブクエリなどを実行して、必要なデータセットをプルするメカニズムを実行する方法を知っています。そして、私はそれが以前にここでカバーされたことを知っています。あいまい検索を行うための最良の方法についての考えを聞くことに興味があります-全文索引またはsoundex関数、またはこのプロセスに気付いていない何かを使用する必要がありますか？（SQL Server 2005を使用しています）

どんな助けでも大歓迎です！

score 2 · Accepted Answer

もちろん、正確な要件によって異なりますが、SQLでCONTAINSを使用すると、近接検索だけでなく、主題検索やあいまい検索も実行できます。

http://www.developer.com/db/article.php/3446891/Understanding-SQL-Server-Full-Text-Indexing.htm

http://msdn.microsoft.com/en-us/library/ms187787(SQL.90).aspx

score 1 · Accepted Answer

SSISタスクを使用して、データを定期的にクリーンアップすることをお勧めします。SSISにはあいまい一致演算子があり、より強力なコンポーネントを提供するサードパーティプロバイダーがあります。トピックに関するいくつかの記事：

予算が許せば、運用の規模に見合うだけの価値がある場合は、MDSサーバーであるSQL Server2008R2マスターデータサービスを検討することもできます。

score 0 · Accepted Answer

また、新しいSSISデータ品質ツールキットがhttp://www.melissadata.com/dqt/total-data-quality-integration.htmで入手できます。

sql-server-2005 - SQLServer2005を使用して可能性のある重複をあいまい一致させるための優れたSQL戦略

3 に答える 3

Related

Reference