私はETL開発者であり、ETLタスクにさまざまなツールを使用しています。すべてのプロジェクトで同じ質問が発生します。データウェアハウスが構築される前、およびデータ移動のためにETLが構築される前のデータプロファイリングの重要性です。通常、ETLツールはこれらの優れた代替手段を提供しないため(ツールにはいくつかのデータ品質コンポーネントがありますが、それらはそれほど洗練されていません)。1つのオプションは、この種の探索的データ分析にRプログラミング言語またはSPSSModelerなどの種類のツールを使用することです。ただし、通常、これらの種類のツールは使用できないか、数百万行のデータがある場合は適格ではありません。
SQLを使用してこの種のプロファイリングを行う方法は?利用可能なヘルパースクリプトはありますか?データクリーニングとETLの前に、この種の探索的データ分析をどのように行いますか?