hadoop - Hadoop でデータリネージを実装する方法は?

Question

金融分野では数少ない業務フローを実施しています。規制当局からの要件 (残念ながら、あまり具体的ではありません) は、監査目的でデータ系統を持つことです。

フローには、同期と非同期の 2 つの部分が含まれます。同期部分は、POS、顧客、および商品に関する一連の情報を含む支払いの試みです。非同期部分は、1 時間ごとに新しく計算された変数の部分を信用評価データモデルに供給するバッチプロセスです。変数には、残高や履歴トランザクションへのリンクなどの集計が含まれる場合があります。

非同期部分を計算するために、複数のリレーショナル DB からデータを取り込み、HDFS に raw 形式 (テーブルの行を csv 形式) で保存します。

HDFS にデータを保存すると、いくつかの集計を計算して同期部分のデータを生成する Spring XD に基づくジョブがトリガーされます。

関連するセマンティクスと SpringXD で実装された変換を記述する POJO に依存するリレーショナルデータ、HDFS の生データ、MapReduce ジョブがあります。

では、問題は、上記のシナリオで監査をどのように処理するかです。特定の決定が下された理由を説明し、ポリシーで使用されるすべての変数 (同期またはほぼリアルタイムのフロー) がどのように計算されたかをいつでも説明できるようにする必要があります。

既存の Hadoop スタックを調べたところ、現在、エンタープライズ対応の優れた監査機能を提供できるツールはないようです。

私の考えでは、以下を含むカスタム実装から始めることです>

すべてのビジネス用語を含むビジネス用語集
運用および技術メタデータ - 各エントリの変換実行を個別のストアに記録します。
ビジネスロジックへの変更を記録します (ビジネスルールと変換が保持されているバージョン管理からのデータを使用します)。

アドバイスや経験を共有していただければ幸いです。

hadoop - Hadoop でデータリネージを実装する方法は?

1 に答える 1

Related

Reference