hbase - HBASE へのデータウェアハウススタースキーマのマッピング

Question

仮説として、データウェアハウス環境にスタースキーマがあるとします。1 つの非常に長いファクトテーブル (数十億から数兆行と考えてください) と、カーディナリティの低いディメンションテーブル (100 ディメンションテーブルと考えてください) がいくつかあります。ディメンションテーブルの主キーを指す各ファクトテーブルの外部キーには、ビットマップインデックスが付けられます。各ディメンションテーブルの主キーにも、ビットマップインデックスが作成されます。これは高速結合のすべてです。すべてかなり標準的です。

データウェアハウスのパフォーマンスが低下し始めているとします。ビットマップ結合から結果を返すのにかかる時間は、ファクトテーブルが長くなるほど悪化します。ビジネス要件は、ファクトテーブルが成長し続けることです (1 年以上前のデータをアーカイブストレージに移動することはできません)。

以下の解決策を考えています。

ファクトテーブルをハッシュパーティションしますが、これは避けられない増大の問題を一時的に回避するだけです。
データベースは、物理的なスタースキーマデータベースを複数のスキーマ/データベースとして分割します。1..N ファクトテーブルとそのディメンションコピー。それぞれがハッシュ (1..N) 関数を介して割り当てられたデータを保持します。この関数は別の ETL ステージングデータベースで実行され、どのデータベース/スキーマがファクト行 (ETL の結果) であるかを判断します。プロセス）に入ります。ディメンションが変更された場合は、ディメンションに対応する他のデータベースに変更を複製します。繰り返しますが、これは永続的な解決策としては機能しません。
ディメンションを折りたたんで、すべてのディメンション値をファクトテーブルに直接保存します。次に、ファクトテーブルを Hadoop 上の HBASE にインポートします。ディメンションテーブルを持たない大規模な HBASE テーブル、キー値ストアを取得します。結合は HBASE では法外なコストがかかるため、これを行います (結合をディメンション化することは事実ではありません。ディメンション列にディメンション値を適用するだけです)。

誰もこれをやったことがありますか？

解決策＃3のヒントはありますか？

高速読み取りでスケールアップする限り、HBASE ソリューションは最適ですか?

書き込みに関しては、バッチ処理として時間外に行われるため、高速書き込みは気にしません。

解決策 1 または 2 を選択した人がいる場合、一貫したハッシュアルゴリズムを使用した人はいますか? 完全な再マップを行わずにパーティション数を動的に増加させることは、おそらくオプションではありません (パーティション化されたテーブルに関する限り、実際に行われたことはありません)。

多くの次元を持つ巨大なファクトテーブル (従来の DW スタースキーマ) を HBASE の巨大な次元のないテーブルに移動することに関する考え、アドバイス、経験はありますか?

関連する質問:

従来、マテリアライズドビュー (または、最も詳細なファクトテーブルと同じディメンションにリンクされた別のファクトテーブルとして (または、ベースファクトテーブルが時間単位である時間単位、日単位、週単位、月単位など) に存在するデータコレクションをデータに集約する方法HBASE への倉庫マップ?

ファクトテーブルの部分的なスタースキーマの集計

私の考えでは、HBASE にはマテリアライズドビューがないため、集計データコレクションは HBASE テーブルとして格納され、最も詳細で最低レベルのファクトテーブルに変更があった場合はいつでも更新/挿入されます。

HBASE の集計テーブルについて何か考えはありますか? Hive スクリプトを使用して、最も詳細なファクトテーブルへの変更時に、集計データが格納されているセカンダリ HBASE テーブル (つまり、daily_aggregates_fact_table、weekly_aggregates_fact_table、monthly_aggregates_fact_table) の集計列データを更新する際にマテリアライズドビューの動作を本質的に模倣した人はいますか?

score 1 · Accepted Answer

ディメンションは、HBaseでキー行として定義されます。値は測定値です。ファクトテーブルにファクトがない場合、HBase行の値はnullになる可能性があります。

インターネットからの貧弱なリソースに依存しますが、私はその考えは次のとおりだと思います。

**RowKey**                                **Value**
DimensionA                             XX
DimensionA:DimensionB                  XX
DimensionB:DimensionC                  XX
DimenesionA:DimensionB:DimenesionC:   XXX

それはあなたの問題に適していますか？

score 0 · Accepted Answer

HBase は、汎用のデータウェアハウスには適していません (リアルタイムのクエリ時間が必要です)。単一のテーブルでは、1 つのディメンションまたはディメンションを通る 1 つのパスに沿ってしかドリルダウンできません (適切な複合キーを正しく設計している場合)。元に戻すことはできませんが (たとえば、ebay は HBase で新しい検索エンジンを構築しました)、すぐに使用できるわけではありません。

Hadoop ( HadaptやRainstorなど)で高パフォーマンスの SQL を提供するためのいくつかの取り組みがありますが、 Vertica、Greenplum、Asterdata、Netezzaなどの優れた超並列データベースのパフォーマンスは得られません。

hbase - HBASE へのデータ ウェアハウス スター スキーマのマッピング

2 に答える 2

Related

Reference

hbase - HBASE へのデータウェアハウススタースキーマのマッピング