16

私たちは銀行のデータ ウェアハウスに取り組んでおり、ステージング テーブル、スター スキーマ、ETL の標準的な Kimball モデルにほぼ従っており、プロセスを通じてデータを取得しています。

Kimball は、データをスター スキーマに入れる準備が整うまで、インポート、クリーニング、処理などすべてにステージング領域を使用することについて話しています。実際には、これは通常、ほとんどまたはまったく変更せずにソースから一連のテーブルにデータをアップロードし、その後、必要に応じて中間テーブルを介してスター スキーマに入る準備ができるまでデータを取得することを意味します。これは単一のエンティティにとっては大変な作業であり、単一の責任はありません。

私が取り組んできた以前のシステムでは、さまざまなテーブル セットが次のように区別されていました。

  • テーブルのアップロード: 未加工のソース システム データ、未変更
  • ステージング テーブル: 中間処理、型付けおよびクレンジング
  • 倉庫テーブル

これらを個別のスキーマに貼り付けて、アーカイブ/バックアップ/セキュリティなどに異なるポリシーを適用できます。他の人の 1 人は、StagingInputStagingOutputがあるウェアハウスに取り組んでいます。同様の話です。チームは全体として、データ ウェアハウスとその他の両方で多くの経験を積んでいます。

しかし、これらすべてにもかかわらず、Kimball と Web を調べてみると、ステージング データベースに何らかの構造を与えることについて、まったく何も書かれていないようです。キンボール氏が私たち全員に、この巨大で深く暗い構造化されていないデータのプールであるステージングを使用させようとしていると信じることは許されるでしょう。

もちろん、ステージング領域に構造を追加したい場合にどうすればよいかは明らかですが、それについて何も書かれていないように見えるのは非常に奇妙に思えます。

それで、そこにいる他のみんなは何をしているのですか?ステージングは​​、構造化されていない大きな混乱にすぎないのでしょうか?それとも、人々はいくつかの興味深いデザインを持っているのでしょうか?

4

7 に答える 7

4

ただ、Raph Kimball と Joe Caserta による「The Data Warehouse ETL Toolkit」という本があるので、Kimball 氏はこれに力を入れています。:)

于 2009-10-29T19:24:12.107 に答える
4

私は同じ問題を経験しました。大規模な HR DataWarehouse があり、企業全体のシステムからデータを取得しています。ファクト テーブルとディメンション テーブルのすばらしいコレクションがありますが、ステージング エリアがごちゃごちゃしています。私はこれの設計基準を知りません。私はあなたと同じ道をたどり、物事を整理するための標準的な名前のセットを考え出します. あなたの提案はネーミングにかなり適しています。私はそれで働き続けます。

于 2009-05-14T14:24:35.640 に答える
3

現在、大規模な保険 DWH プロジェクトに取り組んでおり、少し複雑ですが、各ソース システム テーブルは STAGING データベースの個別のスキーマに配置され、データを移動/クレンジング/コンフォーム (MDM) する ETL があります。ステージング データベースから STAGINGCLEAN データベースに移動し、データを Kimball DWH に移動する ETL を追加します。

Staging と StagingClean データベースの分離は、特にデータ品質の問題を診断するのに非常に役立ちます。DWH に適切に変換される前に、ダーティ ステージ データとクリーン バージョンが存在するためです。

于 2011-06-03T10:32:52.780 に答える
2

ステージングにはサブエリアが存在する場合があります。たとえば、ステージング 1、ステージング 2 と呼ばれます。

Staging1 は、変換なしでデータ ソースから直接プルできます。Staging1 は最新のデータのみを保持します。

Staging2 は、データを変換し、ウェアハウスに移動する準備を整えます。Staging2 はすべての履歴データを保持します。

于 2009-07-28T15:43:33.613 に答える
0

こちらの投稿をご覧ください。これは、DW内のステージング領域の責任の概要を示しています。

于 2010-09-13T06:39:19.057 に答える
0

なんて素晴らしい質問でしょう。

以前は_MIRR、データベースに取り込まれる未変換のデータに (ミラー用に) 接尾辞を使用していました。ソースを反映しています。次に_STG、ソースから変換されたデータに使用し、次に_DWスター スキーマに使用します。

ここのステージング テーブルは3NF. これがキーポイントだと思います。データは変換されずに着陸し、データを完全に正規化する次のステップとは別に保持されます。その後、レポート用にすべてをスター スキーマにフラット化します。

于 2013-01-18T12:41:57.047 に答える
-2

個人的には、キンボールやその他の場所で問題を探しに行くことはありません。

あなたが求める「構造」とは?どのような「仕組み」が必要だとお考えですか?今日の「構造」の欠如から、どのような問題が見られますか?

私はキンボールのことをあまり考えていないという印象をあなたに残しているかもしれません. そうではありません - 私はキンボールを読んだことがありません。何らかのパターンに適合する以外の理由で物事を変更することはあまり考えていません。現実世界の問題を解決するための変更は問題ありません。たとえば、構造の欠如が原因でステージング テーブルとウェアハウス テーブルが同じように扱われるために、ステージング テーブルをバックアップしていることがわかった場合、これが構造を変更する理由になります。しかし、それがあなたが念頭に置いていたようなものである場合は、質問を編集してそれを示す必要があります.

于 2009-05-14T14:18:52.890 に答える