問題タブ [datamart]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-warehouse - 何百ものファクトに対するファクト テーブルの設計ガイダンス
ヘルスケア アプリケーション用のデータマートを作成しようとしています。データマート内のファクトは、基本的には心臓に関連する測定値と調査結果であり、数百個あります。1000 から始まり、試験の種類ごとに最大 20000 まで可能です。
ファクト テーブルの設計上の選択は次のとおりです。
グレイン: 検査タイプごとに患者ごとに 1 行。
私が考えることができるいくつかの選択肢 -
1) 1000 列以上の大きな幅のファクト テーブル。
2) EAV ベースの設計 - 個別のメジャー ディメンション テーブル。この外部キーはファクト テーブルに入り、メジャー値はファクト テーブルになります。そのため、ファクト テーブルの粒度は、患者ごと、検査タイプごと、測定ごとに 1 行に変更されます。
3) サブグループのようないくつかの他の基準に従って、試験の種類ごとに、より小さな複数のファクト テーブルを作成します。ただし、エンド ユーザーはサブグループ全体でその検査タイプを照会するため、事実と事実の結合は推奨されません。
4) 他のアイデアはありますか?
任意の入力をいただければ幸いです。
sql - DW から DM まで 10 億行
設計/パフォーマンスに関する質問があります。
次のテーブルがあります。
そして、これは 2015 ... 2010 年の同じ表です。
すべてのテーブルには約 1 億 5000 万行あります。つまり、合わせて約 10 億 5000 万行になります。
BI 担当者がこれを 1 つのビューにまとめたいという要件を受け取りました (select * from all_visits のようなクレイジーなもの)。
幸いなことに、彼らはいくつかの「where」句と、必要のないいくつかの列を提供してくれたので、最終結果は 6 列と行の 20% (2 億 1000 万行) になりますが、それでも、「ビュー」は単なる保存されたものです。クエリ。ボックスには 60 GB の RAM が搭載されていますが、他の多くのデータベースと共有されています。
私が見るオプション:
- ビューの代わりに… ビューをテーブルとして作成し、専用のボックスに移動します。
- 年に 1 つのビューを作成しますか?
- これらすべてをmongodbまたはverticaのようなものに切り替えますか?!
- 列に格納されたインデックスと組み合わせた以前のオプションはありますか?
sql - データ マートに 2 つの異なる粒度がある場合の解決方法
与えられたデータソースからデータマートを作成しています。データ マートに次のテーブルを作成しました。
したがって、分析を行いたい場合は、人口と会議の郡では粒度が異なります。年ごと、月ごとに分析したい。両方のファクト テーブルを 1 つまたは任意の提案に結合する方法はありますか?
data-warehouse - Inmon データマート vs Kimball データマート
キンボールとインモンの唯一の違いは、エンタープライズ層 (EDW) です。調べてみると、inmon も EDW を使用してデータ マートを作成していることがわかりました。つまり、これらのデータ マートは両方とも、特定のビジネス プロセスとソース システムの構造が似ているということですか?
両方の手順でデータ マートをすぐに使用できるようになったら、同じパフォーマンスが得られますか?
間違っていたら訂正してください。最初にデータ ウェアハウスが作成され、次に特定のビジネス要件のために、その上に次元モデルが作成されます (ER モデルから次元モデルへ)。
inmon モデルでデータ マートがどのように作成されるかについての情報を見つけることができませんでした。
amazon-web-services - DynamoDB データを Redshift にロードする手順は?
DynamoDB から Redshift にデータをロードする方法を知りたいです。
ドキュメントによると、DynamoDB は NoSQL であり、Redshift は RDBMS です。
では、正規化された方法で非構造化データを処理するにはどうすればよいでしょうか?
データを正規化する必要があるのはいつですか?
Redshift が完全なデータを保持するのか、変換されたデータを保持するのかを知りたいです。
増分データをロードする最良の方法を知りたいです。
誰でもこのプロセスの手順を提案できますか?