2

cloudera navigatoratlasWherehowsなどのソリューションを使用しています

Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE メタデータと系列を取得します。

現在、AWS redshift にもデータ ウェアハウスがあります。redshift からメタデータまたは系統、または両方の情報を抽出する方法はありますか。

これまでのところ、私はこれについて何も見つけていません。

クロールされたソリューションと同じものを wherehows に統合する方法はありますか?

postgresqlに似ていると仮定して、redshiftから情報を取得する方法に関する情報を提供する投稿を1つだけ見つけました。誰かがこの問題に対するオープンソースの解決策を書いたに違いありません。それとも、単純な単一のスクリプトを記述してこの情報を抽出するだけでよいのでしょうか? エンタープライズ レベルのソリューションを探しています。誰かが私を正しい方向に向けてくれることを願っています。

4

2 に答える 2

0

Redshift のシステム テーブルにクエリを実行することで、メタデータにアクセスできます。

https://docs.aws.amazon.com/redshift/latest/dg/cm_chap_system-tables.html

システム テーブルは、各クラスターのリーダー ノードにあります (私が書いた Redshift アーキテクチャに関するこのガイドを参照してください)。

Redshift はシステム テーブルの内容を定期的に削除するため、履歴を取得するには、そのデータを自分のクラスターまたは別の別のクラスターに保存する必要があります。システム テーブル内のデータを使用して、クエリに関する情報のベースラインと、それらがアクセスしているテーブルを取得します。

そのデータの上に Kibana や Periscope Data などのダッシュボードを配置して、視覚化できます。Plaid は、データ リネージに関する情報を含む社内監視ソリューションをどのように構築したかについて、記事を書いています。

https://blog.plaid.com/managing-your-amazon-redshift-performance-how-plaid-uses-periscope-data/

ただし、真のデータ系列を取得するには、クエリがワークフロー、つまり Airflow DAG とどのように関係しているかを理解する必要があります。その情報を取得するには、クエリを「タグ付け」して、個々のクエリを見るのではなく、変換/ワークフローのコンテキストでそれらを追跡できるようにする必要があります。

これは、当社の製品に組み込まれているものです。商用ソリューションであることをご承知おきください。

https://www.intermix.io/blog/announce-query-insights/

システム テーブルからの生ログとは異なり、どのアプリやワークフローがクエリをトリガーしているか、どのユーザーがそれらを実行しているか、どのテーブルにアクセスしているかのコンテキストを提供します。

  • ラース
于 2019-03-27T15:50:10.077 に答える