私は主にいわゆる「ビッグデータ」を扱っています。ETL と分析の部分。私が常に直面している課題の 1 つは、いわば「自分のデータをテストする」良い方法を見つけることです。mapreduce および ETL スクリプトについては、堅実な単体テスト カバレッジを記述しますが、データ自体に予期しない根本的な変更 (複数のアプリケーション システムからのもの) がある場合、コードは必ずしも顕著なエラーをスローするとは限りません。については知りません。
基になるデータがどのように/どのように変更されているかを人々が監視するのに役立つベストプラクティスはありますか?
当社の技術スタックは、AWS EMR、Hive、Postgres、および Python です。Informatica のような大規模な ETL フレームワークを導入することにはあまり関心がありません。