sql - データウェアハウスのステージング領域内の構造

Question

私たちは銀行のデータウェアハウスに取り組んでおり、ステージングテーブル、スタースキーマ、ETL の標準的な Kimball モデルにほぼ従っており、プロセスを通じてデータを取得しています。

Kimball は、データをスタースキーマに入れる準備が整うまで、インポート、クリーニング、処理などすべてにステージング領域を使用することについて話しています。実際には、これは通常、ほとんどまたはまったく変更せずにソースから一連のテーブルにデータをアップロードし、その後、必要に応じて中間テーブルを介してスタースキーマに入る準備ができるまでデータを取得することを意味します。これは単一のエンティティにとっては大変な作業であり、単一の責任はありません。

私が取り組んできた以前のシステムでは、さまざまなテーブルセットが次のように区別されていました。

テーブルのアップロード: 未加工のソースシステムデータ、未変更
ステージングテーブル: 中間処理、型付けおよびクレンジング
倉庫テーブル

これらを個別のスキーマに貼り付けて、アーカイブ/バックアップ/セキュリティなどに異なるポリシーを適用できます。他の人の 1 人は、StagingInputとStagingOutputがあるウェアハウスに取り組んでいます。同様の話です。チームは全体として、データウェアハウスとその他の両方で多くの経験を積んでいます。

しかし、これらすべてにもかかわらず、Kimball と Web を調べてみると、ステージングデータベースに何らかの構造を与えることについて、まったく何も書かれていないようです。キンボール氏が私たち全員に、この巨大で深く暗い構造化されていないデータのプールであるステージングを使用させようとしていると信じることは許されるでしょう。

もちろん、ステージング領域に構造を追加したい場合にどうすればよいかは明らかですが、それについて何も書かれていないように見えるのは非常に奇妙に思えます。

それで、そこにいる他のみんなは何をしているのですか？ステージングは、構造化されていない大きな混乱にすぎないのでしょうか?それとも、人々はいくつかの興味深いデザインを持っているのでしょうか?

score 4 · Accepted Answer

ただ、Raph Kimball と Joe Caserta による「The Data Warehouse ETL Toolkit」という本があるので、Kimball 氏はこれに力を入れています。:)

score 4 · Accepted Answer

私は同じ問題を経験しました。大規模な HR DataWarehouse があり、企業全体のシステムからデータを取得しています。ファクトテーブルとディメンションテーブルのすばらしいコレクションがありますが、ステージングエリアがごちゃごちゃしています。私はこれの設計基準を知りません。私はあなたと同じ道をたどり、物事を整理するための標準的な名前のセットを考え出します. あなたの提案はネーミングにかなり適しています。私はそれで働き続けます。

score 3 · Accepted Answer

現在、大規模な保険 DWH プロジェクトに取り組んでおり、少し複雑ですが、各ソースシステムテーブルは STAGING データベースの個別のスキーマに配置され、データを移動/クレンジング/コンフォーム (MDM) する ETL があります。ステージングデータベースから STAGINGCLEAN データベースに移動し、データを Kimball DWH に移動する ETL を追加します。

Staging と StagingClean データベースの分離は、特にデータ品質の問題を診断するのに非常に役立ちます。DWH に適切に変換される前に、ダーティステージデータとクリーンバージョンが存在するためです。

score 2 · Accepted Answer

ステージングにはサブエリアが存在する場合があります。たとえば、ステージング 1、ステージング 2 と呼ばれます。

Staging1 は、変換なしでデータソースから直接プルできます。Staging1 は最新のデータのみを保持します。

Staging2 は、データを変換し、ウェアハウスに移動する準備を整えます。Staging2 はすべての履歴データを保持します。

score 0 · Accepted Answer

こちらの投稿をご覧ください。これは、DW内のステージング領域の責任の概要を示しています。

score 0 · Accepted Answer

なんて素晴らしい質問でしょう。

以前は_MIRR、データベースに取り込まれる未変換のデータに (ミラー用に) 接尾辞を使用していました。ソースを反映しています。次に_STG、ソースから変換されたデータに使用し、次に_DWスタースキーマに使用します。

ここのステージングテーブルは3NF. これがキーポイントだと思います。データは変換されずに着陸し、データを完全に正規化する次のステップとは別に保持されます。その後、レポート用にすべてをスタースキーマにフラット化します。

score -2 · Accepted Answer

個人的には、キンボールやその他の場所で問題を探しに行くことはありません。

あなたが求める「構造」とは？どのような「仕組み」が必要だとお考えですか？今日の「構造」の欠如から、どのような問題が見られますか?

私はキンボールのことをあまり考えていないという印象をあなたに残しているかもしれません. そうではありません - 私はキンボールを読んだことがありません。何らかのパターンに適合する以外の理由で物事を変更することはあまり考えていません。現実世界の問題を解決するための変更は問題ありません。たとえば、構造の欠如が原因でステージングテーブルとウェアハウステーブルが同じように扱われるために、ステージングテーブルをバックアップしていることがわかった場合、これが構造を変更する理由になります。しかし、それがあなたが念頭に置いていたようなものである場合は、質問を編集してそれを示す必要があります.

sql - データ ウェアハウスのステージング領域内の構造

7 に答える 7

Related

Reference

sql - データウェアハウスのステージング領域内の構造