問題タブ [azure-data-catalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - MS Azure データ カタログへのアクセス
組織内から Azure Data Catalog のホームページにアクセスしようとしています: https://usw-su1.azuredatacatalog.com/#/home
上記のリンクをクリックすると、プロビジョニング ページ https://usw-su1.azuredatacatalog.com/provisionに移動します。
何が原因なのか正確にはわかりません。私は Azure を初めて使用します。特定の構成設定が原因ですか?
azure - マルチテナンシーとデータ分離をサポートするデータ カタログ ツール
Azure Data Lake Gen2 環境でのマルチテナンシーをデータ ソースとしてサポートする、Azure Data Catalog のような Data Catalog ツールを探しています。この機能により、複数のユーザー (異なるテナント) が任意のメタデータ ツールを使用して特定のデータ (データ レイク フォルダー) を検索できるようになります。Azure Data Catalog は、このマルチテナンシー、データ分離をサポートしていますか? このようなタイプのマルチテナンシーとデータ分離を効率的に処理する他のいくつかのツールを提案できますか?
azure - Azure SQL Server メタデータと連携する Azure Data Catalog - データ ソースの公開時に Azure SQL Server メタデータを取得しない
いくつかの拡張プロパティをいくつかのビューとテーブルの MS_description フィールドに設定しました。データ ソースを 2 回公開しようとしましたが、ADC 内のそのテーブルまたはビューの説明フィールドに説明が表示されません
ADC を Azure SQL Server 拡張プロパティと同期するにはどうすればよいですか?
azure - Databricks、Synapse、ADLS gen2 向けのデータ ガバナンス ソリューション
私はデータ ガバナンスに慣れていないので、質問に情報が不足している場合はご容赦ください。
目的
Azure プラットフォーム上で、中規模の通信会社向けにデータ レイクとエンタープライズ データ ウェアハウスをゼロから構築しています。ETL 処理、データ サイエンス、ML および QA アクティビティには、ADLS gen2、Databricks、Synapse を使用しています。
すでに約 100 の入力テーブルがあり、年間 25 TB です。将来的には、さらに期待しています。
ビジネスには、クラウドに依存しないソリューションへの強い要求があります。それでも、Databricks は AWS と Azure で利用できるので問題ありません。
質問
当社のスタックと要件に最適なデータ ガバナンス ソリューションはどれですか?
私の回避策
まだデータ ガバナンス ソリューションを使用したことがありません。すぐに使える基本的な機能を提供するAWS Data Lakeソリューションが気に入っています。知る限り、 ADLS gen2 をサポートしていないため、Azure Data Catalogは古くなっています。
非常に簡単なグーグルの後、3つのオプションが見つかりました:
- Databricks プライバシー
- Databricks イミュータ
- アパッチ レンジャーとアパッチ アトラス。
現在、3 番目のオプションが Azure スタックを完全にサポートしているかどうかさえわかりません。さらに、開発 (インフラストラクチャ定義) の労力がはるかに大きくなります。では、レンジャー/アトラスの方向性を調べる必要がある理由はありますか?
Immuta よりも Privacera を好む理由とその逆の理由は何ですか?
他に評価すべきオプションはありますか?
すでに行われていること
データ ガバナンスの観点からは、次のことのみを行いました。
- ADLS 内のデータ ゾーンを定義する
- 機密データの暗号化/難読化を適用します (GDPR 要件による)。
- Synapse および Power BI レイヤーに行レベル セキュリティ (RLS) を実装
- 何をいつ永続化したかを記録するためのカスタム監査フレームワーク
やるべきこと
- データ系統と信頼できる唯一の情報源。開始から 4 か月でさえ、データ セット間の依存関係を理解することが苦痛になります。リネージ情報は Confluence 内に保存されるため、複数の場所で維持し、継続的に更新することは困難です。今でもところどころ古くなっています。
- 安全。ビジネス ユーザーは、将来的に Databricks Notebooks でデータ探索を行う可能性があります。Databricks には RLS が必要です。
- データ ライフ サイクル管理。
- おそらく、データ品質など、他のデータガバナンス関連のもの.