5

私はデータ ガバナンスに慣れていないので、質問に情報が不足している場合はご容赦ください。

目的

Azure プラットフォーム上で、中規模の通信会社向けにデータ レイクとエンタープライズ データ ウェアハウスをゼロから構築しています。ETL 処理、データ サイエンス、ML および QA アクティビティには、ADLS gen2、Databricks、Synapse を使用しています。

すでに約 100 の入力テーブルがあり、年間 25 TB です。将来的には、さらに期待しています。

ビジネスには、クラウドに依存しないソリューションへの強い要求があります。それでも、Databricks は AWS と Azure で利用できるので問題ありません。

質問

当社のスタックと要件に最適なデータ ガバナンス ソリューションはどれですか?

私の回避策

まだデータ ガバナンス ソリューションを使用したことがありません。すぐに使える基本的な機能を提供するAWS Data Lakeソリューションが気に入っています。知る限り、 ADLS gen2 をサポートしていないため、Azure Data Catalogは古くなっています。

非常に簡単なグーグルの後、3つのオプションが見つかりました:

  1. Databricks プライバシー
  2. Databricks イミュータ
  3. アパッチ レンジャーとアパッチ アトラス。

現在、3 番目のオプションが Azure スタックを完全にサポートしているかどうかさえわかりません。さらに、開発 (インフラストラクチャ定義) の労力がはるかに大きくなります。では、レンジャー/アトラスの方向性を調べる必要がある理由はありますか?

Immuta よりも Privacera を好む理由とその逆の理由は何ですか?

他に評価すべきオプションはありますか?

すでに行われていること

データ ガバナンスの観点からは、次のことのみを行いました。

  1. ADLS 内のデータ ゾーンを定義する
  2. 機密データの暗号化/難読化を適用します (GDPR 要件による)。
  3. Synapse および Power BI レイヤーに行レベル セキュリティ (RLS) を実装
  4. 何をいつ永続化したかを記録するためのカスタム監査フレームワーク

やるべきこと

  1. データ系統と信頼できる唯一の情報源。開始から 4 か月でさえ、データ セット間の依存関係を理解することが苦痛になります。リネージ情報は Confluence 内に保存されるため、複数の場所で維持し、継続的に更新することは困難です。今でもところどころ古くなっています。
  2. 安全。ビジネス ユーザーは、将来的に Databricks Notebooks でデータ探索を行う可能性があります。Databricks には RLS が必要です。
  3. データ ライフ サイクル管理。
  4. おそらく、データ品質など、他のデータガバナンス関連のもの.
4

3 に答える 3