問題タブ [data-quality-services]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - DQSマスターテーブルの重複をクレンジングし、参照されているすべてのテーブルのIDを修正する方法
マスターテーブルに多くの重複があります。次の例を参照してください。顧客 ABC Corp はマスター テーブルに 3 回存在し、3 つの CustID すべてが Orders テーブルで参照されています。
Data Quality Services を使用して Customers テーブルから重複する Customers を削除し、ALSO を使用して Orders テーブルを更新して変更を反映するにはどうすればよいですか。
つまり、CustID 1003 と 1004 は 1001 にマージされ、Orders テーブルの 1003 と 1004 も 1001 に更新する必要があります。
私がこれまでにやってきたこと。CustName のシノニムを使用して顧客のナレッジ ベースを作成し、主要な値を定義しました。次に、DQS でデータ クレンジング プロジェクトを作成し、データを分析してから、マスター データを修正し、それらの修正された値を顧客のナレッジ ベースにインポートしました。SSIS の DQS クレンジング変換は、ソース テーブルと DQS KB に接続することでこれを自動的に行い、一致する行と一致しない行を提供することを理解しましたが、ここから何をすべきかまだわかりません。Customers テーブルのデータがどのように修正され、それに応じて Orders テーブルが更新されたか。提案してください。これまで見てきた例では、テーブルと単純な Excel シートだけでかなり基本的なものを使用しています。
ssis - 環境間での SSIS DQS タスクの移動
私は SQL Server 2012 を使用しており、Data Quality Services (DQS) クレンジング変換を使用する SSIS パッケージを作成しました。SSIS パッケージを DEV 環境から QA または PROD に移動しようとする場合を除いて、すべてがうまく機能します。
SSIS DQS 変換は、ナレッジ ベースの名前ではなく、ナレッジ ベースの ID を XML にハード コードします。問題は、DQS KB をインストール/インポートすると、KB に別の ID が作成されることです。したがって、ある環境の KB の ID は、別の環境の同じ KB の ID とは異なります。たとえば、DEV 環境の ID は 100005 で、PROD 環境の同じ KB の ID は 100007 です。
このため、変換が PROD 環境で実行されると、変換が ID 100005 の KB を探し、PROD では ID が 100007 であるため、タスクはエラーをスローします (スローされるエラーは次のとおりです: ナレッジ ベースは存在しません)。 .
Microsoft が提案する唯一の回避策は、KB を 1 つだけにしてすべての環境がそれを指すようにする (ネットワーク チームはこれを許可しません)、またはカタログ/展開ツールを使用せずに SSIS プロジェクトを他の環境に移動してからパッケージを開くことです。 SSIS で KB を再選択し、SSIS DQS 変換で KB を再選択しますが、開発チームは PROD のサーバーにアクセスできないため、これは受け入れられる回避策ではありません。
誰かが別の回避策を見つけましたか? ところで、これはマイクロソフトが行うように言っていることです: https://support.microsoft.com/en-us/kb/2882914 (基本的に私が上に書いたもの)。また、XML でハードコードされた ID を変更しようとしましたが、何らかの理由でうまくいきませんでした。
回避策がない場合、このタスクは役に立たず、うまく機能するだけに残念です。
sql - 顧客データの重複除去と結合
ClusterID に基づいてレコードを結合して、顧客レコードのデータを充実させようとしています。
MS SQL を使用して以下をグループ化するにはどうすればよいですか? 合体を機能させるにはレコードが同じ行にある必要があるため、機能しません。また、クラスターごとに 2 つ以上の一致がある場合、面倒な処理になります。すべての列で max by ClusterId を使用することは、私が行っている回避策ですが、これを行うためのより効率的な方法があることを望んでいました。
もつ:
**これは、SSIS DQS マッチング ノード ( https://ssisdqsmatching.codeplex.com/ ) の結果です。試合はできますが、ゴールデン レコードを取得するためのサバイバーシップ部分を処理することはできません。
欲しい:
どんな考えでも大歓迎です。ありがとうございました!
azure - Azure でマスターデータの重複排除を実現する
AzureDB の一致率に基づいてマスター データの重複排除を実現することを検討しています...SQL Server2012 のマスター データ サービス/DQS (データ品質サービス) に相当するものを検討していました
https://channel9.msdn.com/posts/SQL11UPD05-REC-06
一致ルール (完全一致、近似一致など) の制御、依存関係の処理、監査証跡 (元に戻す機能など) を幅広く探しています。
これが SQL Server で利用可能になった場合、これは Azure クラウドで利用できるに違いないと思います。AzureDB でこれを行う方法を教えてください。
注 - Azure マーケットプレイスにリストされている MelissaDAta、D&B などのデータ ソースは探していません。
