0

SQL Server データベースにロードする前に、ETL プロセスのいくつかの段階で変換および集約する必要があるさまざまなフラット ファイルを受け取ります。

各段階の後、いくつかの方法でデータを検証したいと考えており、役立つ既存の技術を調べています。

データを受信したら、切り捨てられたデータ、日付の書式設定などについて検証し、一般的にデータが変換の準備が整っていることを確認する必要があります。

このようにデータがきれいになったら、データを検証したいと思います。これは、行数、% null、平均値などの値を以前のロードまたは事前定義された値と比較することで構成されます。検証に失敗した場合は、開発者に警告する必要があります。

データベースユニットテストフレームワークであるtSQLtには、私が望むことを行うために使用できるいくつかのアサーションがあります。セットアップは簡単で、適切なドキュメントがあります。これは私が見ることができる最も近いツールですが、設計されたものとはかけ離れています。

別の方法は、独自のツールを作成することですが、知りたいのですが、このようなものは既に存在しますか?

4

1 に答える 1

0

少し検索した後、問題を解決すると思われる商用ソリューションを見つけました: QuerySurge。このような類似のツール ( ETL バリデーター) がいくつかありますが、独自のソフトウェアであると主張しています。

それは次のように機能します。

  • 2 つのクエリ間の集合比較を使用し、一致しない場合はエラーを発生させます。これは、変換前後の行数である場合もあれば、単に結果をチェックしても何も返されない場合もあります。

  • ANSI SQL および接続固有の SQL を使用して、任意の JDBC 準拠のデータ ソースに対してクエリを実行できます。結果は MySql バックエンドを使用して別のサーバーに保存され、これを自分でホストするか、サーバーを使用するかを選択できます。

  • コマンドラインの使用が許可されているため、継続的な統合ツールがサポートされています。

  • テスト (テスト スイート) のグループ化は優れた機能ですが、グループの結果がテスト全体にどのように影響するかは明確ではありません。

  • 組み込みのレポート ツールも見栄えがします。

それが私がウェブサイトから集めたものの大半です。ソフトウェア自体が価格帯外であるため、試用版をダウンロードしていません。

ツールは原則として複雑ではなく、対処するための独自のフレームワークを開発します。

于 2016-05-11T14:57:36.343 に答える