amazon-web-services - AWS redshift に保存されているデータのメタデータ、系列を確認するにはどうすればよいですか?

Question

cloudera navigator、atlas、Wherehowsなどのソリューションを使用しています

Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE メタデータと系列を取得します。

現在、AWS redshift にもデータウェアハウスがあります。redshift からメタデータまたは系統、または両方の情報を抽出する方法はありますか。

これまでのところ、私はこれについて何も見つけていません。

クロールされたソリューションと同じものを wherehows に統合する方法はありますか?

postgresqlに似ていると仮定して、redshiftから情報を取得する方法に関する情報を提供する投稿を1つだけ見つけました。誰かがこの問題に対するオープンソースの解決策を書いたに違いありません。それとも、単純な単一のスクリプトを記述してこの情報を抽出するだけでよいのでしょうか? エンタープライズレベルのソリューションを探しています。誰かが私を正しい方向に向けてくれることを願っています。

score 0 · Accepted Answer

Redshift のシステムテーブルにクエリを実行することで、メタデータにアクセスできます。

https://docs.aws.amazon.com/redshift/latest/dg/cm_chap_system-tables.html

システムテーブルは、各クラスターのリーダーノードにあります (私が書いた Redshift アーキテクチャに関するこのガイドを参照してください)。

Redshift はシステムテーブルの内容を定期的に削除するため、履歴を取得するには、そのデータを自分のクラスターまたは別の別のクラスターに保存する必要があります。システムテーブル内のデータを使用して、クエリに関する情報のベースラインと、それらがアクセスしているテーブルを取得します。

そのデータの上に Kibana や Periscope Data などのダッシュボードを配置して、視覚化できます。Plaid は、データリネージに関する情報を含む社内監視ソリューションをどのように構築したかについて、記事を書いています。

https://blog.plaid.com/managing-your-amazon-redshift-performance-how-plaid-uses-periscope-data/

ただし、真のデータ系列を取得するには、クエリがワークフロー、つまり Airflow DAG とどのように関係しているかを理解する必要があります。その情報を取得するには、クエリを「タグ付け」して、個々のクエリを見るのではなく、変換/ワークフローのコンテキストでそれらを追跡できるようにする必要があります。

これは、当社の製品に組み込まれているものです。商用ソリューションであることをご承知おきください。

https://www.intermix.io/blog/announce-query-insights/

システムテーブルからの生ログとは異なり、どのアプリやワークフローがクエリをトリガーしているか、どのユーザーがそれらを実行しているか、どのテーブルにアクセスしているかのコンテキストを提供します。

ラース

amazon-web-services - AWS redshift に保存されているデータのメタデータ、系列を確認するにはどうすればよいですか?

2 に答える 2

Related

Reference