問題タブ [data-lineage]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop でデータリネージを実装する方法は?
金融分野では数少ない業務フローを実施しています。規制当局からの要件 (残念ながら、あまり具体的ではありません) は、監査目的でデータ系統を持つことです。
フローには、同期と非同期の 2 つの部分が含まれます。同期部分は、POS、顧客、および商品に関する一連の情報を含む支払いの試みです。非同期部分は、1 時間ごとに新しく計算された変数の部分を信用評価データ モデルに供給するバッチ プロセスです。変数には、残高や履歴トランザクションへのリンクなどの集計が含まれる場合があります。
非同期部分を計算するために、複数のリレーショナル DB からデータを取り込み、HDFS に raw 形式 (テーブルの行を csv 形式) で保存します。
HDFS にデータを保存すると、いくつかの集計を計算して同期部分のデータを生成する Spring XD に基づくジョブがトリガーされます。
関連するセマンティクスと SpringXD で実装された変換を記述する POJO に依存するリレーショナル データ、HDFS の生データ、MapReduce ジョブがあります。
では、問題は、上記のシナリオで監査をどのように処理するかです。特定の決定が下された理由を説明し、ポリシーで使用されるすべての変数 (同期またはほぼリアルタイムのフロー) がどのように計算されたかをいつでも説明できるようにする必要があります。
既存の Hadoop スタックを調べたところ、現在、エンタープライズ対応の優れた監査機能を提供できるツールはないようです。
私の考えでは、以下を含むカスタム実装から始めることです>
- すべてのビジネス用語を含むビジネス用語集
- 運用および技術メタデータ - 各エントリの変換実行を個別のストアに記録します。
- ビジネス ロジックへの変更を記録します (ビジネス ルールと変換が保持されているバージョン管理からのデータを使用します)。
アドバイスや経験を共有していただければ幸いです。
oracle11g - 列レベルのデータ系統
以下のように、テーブル X と Y からテーブル Z を作成するストアド プロシージャがあります。
テーブル X、Y を Z にマップするだけでなく、Z.1 を X.1 に、Z.3 を X2 および Y2 に、「ダミー」を Z.6 に、以降もマップする系統ツールが必要です。
この列レベルのマッピングを実行できるツール (無料またはライセンス) はありますか?
neo4j - Neo4j Cypher クエリを介してエンドツーエンドのデータ系統を追跡する方法はありますか?
Spring-Data を SpringBoot と共に使用して、Neo4j グラフ データベースにデータを入力しています。
次の Neo4j エンティティを定義しました。
Source
実体 -->
Field
エンティティ-->
したがって、Source
CONTAINS
複数Field
の s。aField
はMAPS-TO
1 つ以上の他Field
の s です。
それぞれSource
がSourceType
.
私の異なるSourceType
のは、プロデューサー、インバウンド、ステージング、中間、アウトバウンド、コンシューマーです。
それぞれField
がFieldType
.
私の異なるFieldType
ものは次のとおりです。FILE_FIELD、DB_COLUMN。
私のデータ系統は次のとおりです: PRODUCER --> INBOUND --> STAGING --> INTERMEDIATE --> OUTBOUND --> CONSUMER
私は現在Field
、 CONSUMERに a を指定すると、 PRODUCER までSource
その系統を追跡できる高度Source
な Cypher クエリを探しています。
Field
同様に、 PRODUCERSource
に a を指定すると、その系統をCONSUMER まで追跡できるクエリも探していますSource
。
shortestPath
関数と関数を使用してクエリを作成しようとしましたneighbors
が、探している結果が得られないようです。
任意の提案/ポインタをいただければ幸いです。
前もって感謝します !
更新-1
私のデータ系統の背景: 私のアプリケーションは外部アプリケーション (PRODUCE) からファイルを取得します。ファイル内のフィールドに入力された外部アプリケーションのデータベース テーブル/列を認識しています。ここでは、PRODUCER が私のSource
ノードになります。外部アプリケーション (ファイルに入力された) の各 table.column はField
ノードであり、PRODUCERSource
ノードはCONTAINS
すべてのノードと関係を持ちField
ます (ファイルに入力された外部アプリケーション データベース テーブルの table.column を表します)。
外部アプリケーションからのファイルは INBOUND と呼ばれます。コンマ区切りファイルです。ファイルに含まれるフィールド名とその順序を認識しています。ここでは、INBOUND がSource
ノードになります。ファイル内の各フィールドはField
ノードになり、INBOUNDSource
ノードはCONTAINS
すべてのノードと関係を持ちField
ます (受信ファイルのファイル フィールドを表します)。またField
、INBOUNDの各ノードは、PRODUCERのノードと関係がありSource
ます(1 対 1 のマッピング)。MAPS_TO
Field
Source
同様のワークフローで、次の段階は STAGING と呼ばれ、受信ファイル フィールドをデータベース テーブル/列にロードします。ここでは、STAGING がSource
ノードになり、(ファイル フィールドをロードする) データベース テーブルの各列がField
ノードを表します。Field
STAGING ソース ノードは、すべてのノード (ファイル フィールドをロードする db テーブルの db table.column を表す)と CONTAINS 関係を持ちます。またField
、STAGINGの各ノードは、INBOUNDのノードと関係がありSource
ます(1 対 1 のマッピング)。MAPS_TO
Field
Source
同様に、私の次のステージは中級です。この段階では、入力ファイルのフィールドをロードしたテーブルに対してクエリを実行し、出力を別のファイルにフラッシュします (ビジネス ユース ケースに基づいて、テーブル列のすべてまたはサブセットのみをクエリすることを選択できます)。入力ファイルから取り込まれます)。どのフィールドがどの順序で INTERMEDIATE ファイルに入るかを知っています。ここで、INTERMEDIATE は私のSource
ノードであり、INTERMEDIATE ファイルに入る各フィールドは私のノードを表しField
ます。また、INTERMEDIATESource
は、中間ファイル内のフィールドを表すCONTAINS
すべてのノードと関係があります。Field
また、これらの各Field
ノードはMAPS_TO
、STAGING ソースのフィールドと関係があります (1 対 1 のマッピング)。
同様に、OUTBOUND ステージ、最後に CONSUMER ステージがあります。
…(血統を視覚化できるようになったと思います)
私のクエリの目的は、たとえば、Field
名前 (PRODUCER の table.column を表す) を入力として指定した場合、その系統を CONSUMER (つまり、私の系統の最後の段階) まで追跡できるようにすることです。
amazon-web-services - AWS redshift に保存されているデータのメタデータ、系列を確認するにはどうすればよいですか?
cloudera navigator、atlas、Wherehowsなどのソリューションを使用しています
Hadoop、HDFS、HIVE、SQOOP、MAPREDUCE メタデータと系列を取得します。
現在、AWS redshift にもデータ ウェアハウスがあります。redshift からメタデータまたは系統、または両方の情報を抽出する方法はありますか。
これまでのところ、私はこれについて何も見つけていません。
クロールされたソリューションと同じものを wherehows に統合する方法はありますか?
postgresqlに似ていると仮定して、redshiftから情報を取得する方法に関する情報を提供する投稿を1つだけ見つけました。誰かがこの問題に対するオープンソースの解決策を書いたに違いありません。それとも、単純な単一のスクリプトを記述してこの情報を抽出するだけでよいのでしょうか? エンタープライズ レベルのソリューションを探しています。誰かが私を正しい方向に向けてくれることを願っています。
sql - SQL Server 2014: 列の依存関係/系統
テーブルまたはビューのどの列が現在のビューの列の一部であるかを知りたいです。
「基本」バージョンでは、現在のビューに列を使用sys.views
し、sys.dm_sql_referenced_entities
... およびその他のシステム カタログ ビューを使用しました。
結果:
私が取得したいのは、次のようなものです。
誰かがこの問題を解決するのを手伝ってくれますか?