2

COMPANYNAMEやADDRESSLINE1などのフィールドに一致する大規模なデータベースで重複する可能性のあるレコードを見つけたい

例:

次のCOMPANYNAMEのレコードの場合:

  • 「Acme、Inc。」

クエリで、これらのCOMPANYNAME値を持つ他のレコードを可能な限り重複して吐き出したいのですが。

  • 「アクメ・コーポレーション」
  • 「Acme、Incorporated」
  • 「アクメ」

結合、相関サブクエリなどを実行して、必要なデータセットをプルするメカニズムを実行する方法を知っています。そして、私はそれが以前にここでカバーされたことを知っています。あいまい検索を行うための最良の方法についての考えを聞くことに興味があります-全文索引またはsoundex関数、またはこのプロセスに気付いていない何かを使用する必要がありますか?(SQL Server 2005を使用しています)

どんな助けでも大歓迎です!

4

3 に答える 3

2

もちろん、正確な要件によって異なりますが、SQLでCONTAINSを使用すると、近接検索だけでなく、主題検索やあいまい検索も実行できます。

http://www.developer.com/db/article.php/3446891/Understanding-SQL-Server-Full-Text-Indexing.htm

http://msdn.microsoft.com/en-us/library/ms187787(SQL.90).aspx

于 2009-11-13T19:50:40.840 に答える
1

SSISタスクを使用して、データを定期的にクリーンアップすることをお勧めします。SSISにはあいまい一致演算子があり、より強力なコンポーネントを提供するサードパーティプロバイダーがあります。トピックに関するいくつかの記事:

予算が許せば、運用の規模に見合うだけの価値がある場合は、MDSサーバーであるSQL Server2008R2マスターデータサービスを検討することもできます。

于 2009-11-13T19:48:16.737 に答える
0

また、新しいSSISデータ品質ツールキットがhttp://www.melissadata.com/dqt/total-data-quality-integration.htmで入手できます。

于 2009-12-31T16:19:19.433 に答える