複数のソース システムからのデータの統合を伴うデータ ウェアハウス プロジェクトに取り組んでいます。私は、顧客ディメンションを設定し、緩やかに変化するディメンション ツールを使用して顧客の更新を追跡する SSIS パッケージをセットアップしました。
いくつかの問題が発生しています。次の例を見てください。
ソース システム A には、次のようなレコードが含まれている可能性があります。
名、姓、郵便番号 Jane、Doe、14222
ソース システム B には、次のような同じクライアントのレコードがある場合があります。
名、姓、郵便番号 Jane、Doe、Unknown
最初にシステム A からレコードをインポートすると、名、姓、および民族が表示されます。偉大な。ここで、システム B からクライアント レコードをインポートすると、ファジー マッチングを実行して、これが同一人物であることを認識し、緩やかに変化するディメンション ツールを使用して情報を更新できます。ただし、この場合、「不明」が有効なデータを上書きするため、郵便番号が失われます。
この問題に間違った方法で取り組んでいるかどうか疑問に思っています。SCD ツールは、新しいデータが有効かどうかに基づいて属性を選択的に更新する方法を提供していないようです。マージステートメントの方がうまくいくでしょうか? 目に見えない基本的な設計上の間違いを犯していますか?
アドバイスをありがとう!