問題タブ [data-lake]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

126 問題

0 投票する

1 に答える

124 参照

architecture - Data Lake の不変性規則からの例外

Data Lake は不変でなければなりません:

レイクに入れられるすべてのデータは、場所と時間に関して明確な出自を持つことが重要です。すべてのデータ項目には、それがどのシステムから来て、いつデータが生成されたかを明確に示す必要があります。したがって、データレイクには履歴レコードが含まれています。これは、ドメインイベントをレイクに供給することから生じる可能性があり、イベントソースシステムに自然に適合します。しかし、システムが現在の状態をレイクに定期的にダンプすることからも発生する可能性があります。これは、ソースシステムに一時的な機能がなく、そのデータの一時的な分析が必要な場合に役立つアプローチです。この結果、湖に入れられたデータは不変であり、一度述べられた観測は削除できません (後で反駁されるかもしれませんが)、ContradictoryObservations も期待する必要があります。

Data Lake でデータを上書きすることをお勧めします。規則からの例外はありますか? 違うと思いますが、一部のチームメイトは異なる理解を持っています。

累積アルゴリズムの場合、最終状態を再現できるようにするためには、データの来歴とトレーサビリティが必要だと思います。最終状態が以前の結果に依存していない場合はどうなりますか? Data Lake での Data Lake の不変性 (イベントソーシング) は累積アルゴリズムにのみ必要であると彼が言った場合、誰かが正しいでしょうか?

たとえば、テーブル A と B の全負荷の毎日の取り込みがあり、その後、テーブル C を計算します。ユーザーが C の最新の結果のみに関心がある場合、履歴を保持する理由はありますか (日付のパーティショニングに基づくイベントソーシング) ) A、B および C の?

もう 1 つの問題は、ACID 準拠である可能性があります。ファイルが破損しているか、部分的に書き込まれている可能性があります。しかし、A と B の最新の状態をソースシステムから簡単に復元できるケースについて話しているとします。

2020-03-17T16:38:01.257

0 投票する

3 に答える

1938 参照

azure - Databricks、Synapse、ADLS gen2 向けのデータガバナンスソリューション

私はデータガバナンスに慣れていないので、質問に情報が不足している場合はご容赦ください。

目的

Azure プラットフォーム上で、中規模の通信会社向けにデータレイクとエンタープライズデータウェアハウスをゼロから構築しています。ETL 処理、データサイエンス、ML および QA アクティビティには、ADLS gen2、Databricks、Synapse を使用しています。

すでに約 100 の入力テーブルがあり、年間 25 TB です。将来的には、さらに期待しています。

ビジネスには、クラウドに依存しないソリューションへの強い要求があります。それでも、Databricks は AWS と Azure で利用できるので問題ありません。

質問

当社のスタックと要件に最適なデータガバナンスソリューションはどれですか?

私の回避策

まだデータガバナンスソリューションを使用したことがありません。すぐに使える基本的な機能を提供するAWS Data Lakeソリューションが気に入っています。知る限り、 ADLS gen2 をサポートしていないため、Azure Data Catalogは古くなっています。

非常に簡単なグーグルの後、3つのオプションが見つかりました：

Databricks プライバシー
Databricks イミュータ
アパッチレンジャーとアパッチアトラス。

現在、3 番目のオプションが Azure スタックを完全にサポートしているかどうかさえわかりません。さらに、開発 (インフラストラクチャ定義) の労力がはるかに大きくなります。では、レンジャー/アトラスの方向性を調べる必要がある理由はありますか?

Immuta よりも Privacera を好む理由とその逆の理由は何ですか?

他に評価すべきオプションはありますか?

すでに行われていること

データガバナンスの観点からは、次のことのみを行いました。

ADLS 内のデータゾーンを定義する
機密データの暗号化/難読化を適用します (GDPR 要件による)。
Synapse および Power BI レイヤーに行レベルセキュリティ (RLS) を実装
何をいつ永続化したかを記録するためのカスタム監査フレームワーク

やるべきこと

データ系統と信頼できる唯一の情報源。開始から 4 か月でさえ、データセット間の依存関係を理解することが苦痛になります。リネージ情報は Confluence 内に保存されるため、複数の場所で維持し、継続的に更新することは困難です。今でもところどころ古くなっています。
安全。ビジネスユーザーは、将来的に Databricks Notebooks でデータ探索を行う可能性があります。Databricks には RLS が必要です。
データライフサイクル管理。
おそらく、データ品質など、他のデータガバナンス関連のもの.

azure architecture databricks data-lake azure-data-catalog

2020-05-11T22:20:36.140

1 2 3 4 5 6 7 8 9 10