0

スター ダイアグラムで表されるリレーショナル データベースの関係とディメンションの違いは何ですか?

課題の一環として、リレーショナル データ ウェアハウスの設計を行っています。ほとんどのテーブルは、多対多、1 対 1、1 対多のリレーションシップ スキーマを使用して正規化されています (これは正しい用語だと思います。違う)。次のステップは、データ マイニング環境で使用できるスター ダイアグラムを描くことです。これは、さまざまな次元から描画されるファクト テーブルを意味すると思います...

1. 私が考えることができるデータ分析はリレーショナル データベースから取得できるため、ここで少し混乱しています。2. データを引き出したいテーブルの一部に外部キーが含まれている場合、それをどのようにディメンションに分割しますか。

例:私はこれらの関係を持っています:

Courses {course_id, description}
Modules {module_id, description}
Course_modules {course_id, module_id}
Students {student_id, address, enrollment_option, enrollment_date, name, surname, nationality, home_language, gender ...}
Module_grades {student_id, module_id, assignment_1, assignment_1_sub_date, assignment_2, assignment_2_sub_date, exam, exam_date, overall_result}

コースの結果がモジュールの成績にどのように関係しているか知りたいです。リレーショナル データベースでは、学生情報を含むテーブルをモジュールの成績テーブルと結合するクエリを実行します。ディメンションとレポートに相当するものは何ですか? 特に、成績関係の主キーとして複数の列を使用しているため..

4

1 に答える 1

1

運用データベースは高度に正規化されているため、書き込みパフォーマンスが向上し、書き込みの異常が最小限に抑えられます。トランザクション処理を容易にするように設計されています。

分析データベース(データ ウェアハウス) は高度に非正規化されているため、読み取りパフォーマンスが向上し、非 DBA が理解しやすくなります。分析を容易にするように設計されています。

リレーショナル データベースのリレーションとディメンションの違いは何ですか

データ ウェアハウスはリレーショナル データベース内にあり、そのリレーション (テーブル) を使用できるため、違いはありません。

私が考えることができるデータ分析は、リレーショナルデータベースから取得できるので、それを再構築するポイントは何ですか?

多くの場合、データ ウェアハウスには、運用データベースだけでなく、多くのソースからのデータが含まれます。例: メール、Web サイトのスクレイピング。

単純な分析を行うために 10 個のテーブルに参加するよう上司に指示すると、解雇されます。

データを引き出したいテーブルの一部に外部キーが含まれている場合、それをどのようにディメンションに分割しますか。

これは、分析しようとしているものに完全に依存しますが、一般的には、データを非正規化してディメンション テーブルにコピーします。

次元設計

分析したいプロセスまたはイベントから始める必要があります。

エクセルを使用。分析に関連するすべての列を追加します。たとえば、Web サイトにアクセスする人々のプロセスを分析している場合、Excel の各行はサイトへのアクセスを表し、列は start_time、アクセスしたページ数、最初のページ、最後のページなどになります。

ここで、1 レベルの正規化を行います。グループ化できるカテゴリ列を見つけます (ユーザーの Web ブラウザーに関する情報など)。これらはブラウザのディメンションテーブルに格納されます。正規化できない (真の) 数値を見つけます。これらは対策です。たとえば、訪問したページの数。

ディメンション テーブルを参照するメジャーとキーは、ファクト テーブルです。

今すぐこの本を読んでください。

于 2014-08-27T19:00:56.877 に答える