“data-lineage”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

998 参照

hadoop - Hadoop でデータリネージを実装する方法は?

金融分野では数少ない業務フローを実施しています。規制当局からの要件 (残念ながら、あまり具体的ではありません) は、監査目的でデータ系統を持つことです。

フローには、同期と非同期の 2 つの部分が含まれます。同期部分は、POS、顧客、および商品に関する一連の情報を含む支払いの試みです。非同期部分は、1 時間ごとに新しく計算された変数の部分を信用評価データモデルに供給するバッチプロセスです。変数には、残高や履歴トランザクションへのリンクなどの集計が含まれる場合があります。

非同期部分を計算するために、複数のリレーショナル DB からデータを取り込み、HDFS に raw 形式 (テーブルの行を csv 形式) で保存します。

HDFS にデータを保存すると、いくつかの集計を計算して同期部分のデータを生成する Spring XD に基づくジョブがトリガーされます。

関連するセマンティクスと SpringXD で実装された変換を記述する POJO に依存するリレーショナルデータ、HDFS の生データ、MapReduce ジョブがあります。

では、問題は、上記のシナリオで監査をどのように処理するかです。特定の決定が下された理由を説明し、ポリシーで使用されるすべての変数 (同期またはほぼリアルタイムのフロー) がどのように計算されたかをいつでも説明できるようにする必要があります。

既存の Hadoop スタックを調べたところ、現在、エンタープライズ対応の優れた監査機能を提供できるツールはないようです。

私の考えでは、以下を含むカスタム実装から始めることです>

すべてのビジネス用語を含むビジネス用語集
運用および技術メタデータ - 各エントリの変換実行を個別のストアに記録します。
ビジネスロジックへの変更を記録します (ビジネスルールと変換が保持されているバージョン管理からのデータを使用します)。

アドバイスや経験を共有していただければ幸いです。

2016-05-30T14:28:02.440

0 投票する

1 に答える

357 参照

oracle11g - 列レベルのデータ系統

以下のように、テーブル X と Y からテーブル Z を作成するストアドプロシージャがあります。

テーブル X、Y を Z にマップするだけでなく、Z.1 を X.1 に、Z.3 を X2 および Y2 に、「ダミー」を Z.6 に、以降もマップする系統ツールが必要です。

この列レベルのマッピングを実行できるツール (無料またはライセンス) はありますか?

oracle11g reverse-engineering data-lineage

2016-06-30T06:12:17.270

0 投票する

2 に答える

426 参照

neo4j - Neo4j Cypher クエリを介してエンドツーエンドのデータ系統を追跡する方法はありますか?

Spring-Data を SpringBoot と共に使用して、Neo4j グラフデータベースにデータを入力しています。

次の Neo4j エンティティを定義しました。

Source実体 -->

Fieldエンティティ-->

したがって、Source CONTAINS複数Fieldの s。aFieldはMAPS-TO1 つ以上の他Fieldの s です。

それぞれSourceがSourceType.

私の異なるSourceTypeのは、プロデューサー、インバウンド、ステージング、中間、アウトバウンド、コンシューマーです。

それぞれFieldがFieldType.

私の異なるFieldTypeものは次のとおりです。FILE_FIELD、DB_COLUMN。

私のデータ系統は次のとおりです: PRODUCER --> INBOUND --> STAGING --> INTERMEDIATE --> OUTBOUND --> CONSUMER

私は現在Field、 CONSUMERに a を指定すると、 PRODUCER までSourceその系統を追跡できる高度Sourceな Cypher クエリを探しています。

Field同様に、 PRODUCERSourceに a を指定すると、その系統をCONSUMER まで追跡できるクエリも探していますSource。

shortestPath関数と関数を使用してクエリを作成しようとしましたneighborsが、探している結果が得られないようです。

任意の提案/ポインタをいただければ幸いです。

前もって感謝します！

更新-1

私のデータ系統の背景: 私のアプリケーションは外部アプリケーション (PRODUCE) からファイルを取得します。ファイル内のフィールドに入力された外部アプリケーションのデータベーステーブル/列を認識しています。ここでは、PRODUCER が私のSourceノードになります。外部アプリケーション (ファイルに入力された) の各 table.column はFieldノードであり、PRODUCERSourceノードはCONTAINSすべてのノードと関係を持ちFieldます (ファイルに入力された外部アプリケーションデータベーステーブルの table.column を表します)。

外部アプリケーションからのファイルは INBOUND と呼ばれます。コンマ区切りファイルです。ファイルに含まれるフィールド名とその順序を認識しています。ここでは、INBOUND がSourceノードになります。ファイル内の各フィールドはFieldノードになり、INBOUNDSourceノードはCONTAINSすべてのノードと関係を持ちFieldます (受信ファイルのファイルフィールドを表します)。またField、INBOUNDの各ノードは、PRODUCERのノードと関係がありSourceます(1 対 1 のマッピング)。MAPS_TOFieldSource

同様のワークフローで、次の段階は STAGING と呼ばれ、受信ファイルフィールドをデータベーステーブル/列にロードします。ここでは、STAGING がSourceノードになり、(ファイルフィールドをロードする) データベーステーブルの各列がFieldノードを表します。FieldSTAGING ソースノードは、すべてのノード (ファイルフィールドをロードする db テーブルの db table.column を表す)と CONTAINS 関係を持ちます。またField、STAGINGの各ノードは、INBOUNDのノードと関係がありSourceます(1 対 1 のマッピング)。MAPS_TOFieldSource

同様に、私の次のステージは中級です。この段階では、入力ファイルのフィールドをロードしたテーブルに対してクエリを実行し、出力を別のファイルにフラッシュします (ビジネスユースケースに基づいて、テーブル列のすべてまたはサブセットのみをクエリすることを選択できます)。入力ファイルから取り込まれます)。どのフィールドがどの順序で INTERMEDIATE ファイルに入るかを知っています。ここで、INTERMEDIATE は私のSourceノードであり、INTERMEDIATE ファイルに入る各フィールドは私のノードを表しFieldます。また、INTERMEDIATESourceは、中間ファイル内のフィールドを表すCONTAINSすべてのノードと関係があります。Fieldまた、これらの各FieldノードはMAPS_TO、STAGING ソースのフィールドと関係があります (1 対 1 のマッピング)。

同様に、OUTBOUND ステージ、最後に CONSUMER ステージがあります。

…（血統を視覚化できるようになったと思います）

私のクエリの目的は、たとえば、Field名前 (PRODUCER の table.column を表す) を入力として指定した場合、その系統を CONSUMER (つまり、私の系統の最後の段階) まで追跡できるようにすることです。

neo4j path spring-data cypher data-lineage

2016-11-21T16:35:01.243

0 投票する

2 に答える

4566 参照

amazon-web-services - AWS redshift に保存されているデータのメタデータ、系列を確認するにはどうすればよいですか?

cloudera navigator、atlas、Wherehowsなどのソリューションを使用しています

Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE メタデータと系列を取得します。

現在、AWS redshift にもデータウェアハウスがあります。redshift からメタデータまたは系統、または両方の情報を抽出する方法はありますか。

これまでのところ、私はこれについて何も見つけていません。

クロールされたソリューションと同じものを wherehows に統合する方法はありますか?

postgresqlに似ていると仮定して、redshiftから情報を取得する方法に関する情報を提供する投稿を1つだけ見つけました。誰かがこの問題に対するオープンソースの解決策を書いたに違いありません。それとも、単純な単一のスクリプトを記述してこの情報を抽出するだけでよいのでしょうか? エンタープライズレベルのソリューションを探しています。誰かが私を正しい方向に向けてくれることを願っています。

amazon-web-services amazon-redshift hadoop2 database-metadata data-lineage

2017-05-27T14:58:57.160

0 投票する

0 に答える

325 参照

sql - SQL Server 2014: 列の依存関係/系統

テーブルまたはビューのどの列が現在のビューの列の一部であるかを知りたいです。

「基本」バージョンでは、現在のビューに列を使用sys.viewsし、sys.dm_sql_referenced_entities... およびその他のシステムカタログビューを使用しました。

結果：

私が取得したいのは、次のようなものです。

誰かがこの問題を解決するのを手伝ってくれますか?

sql dependencies sql-server-2014 data-lineage

2017-09-06T13:01:24.950

問題タブ [data-lineage]

hadoop - Hadoop でデータリネージを実装する方法は?

oracle11g - 列レベルのデータ系統

neo4j - Neo4j Cypher クエリを介してエンドツーエンドのデータ系統を追跡する方法はありますか?

amazon-web-services - AWS redshift に保存されているデータのメタデータ、系列を確認するにはどうすればよいですか?

sql - SQL Server 2014: 列の依存関係/系統

Reference