2

私はETL開発者であり、ETLタスクにさまざまなツールを使用しています。すべてのプロジェクトで同じ質問が発生します。データウェアハウスが構築される前、およびデータ移動のためにETLが構築される前のデータプロファイリングの重要性です。通常、ETLツールはこれらの優れた代替手段を提供しないため(ツールにはいくつかのデータ品質コンポーネントがありますが、それらはそれほど洗練されていません)。1つのオプションは、この種の探索的データ分析にRプログラミング言語またはSPSSModelerなどの種類のツールを使用することです。ただし、通常、これらの種類のツールは使用できないか、数百万行のデータがある場合は適格ではありません。

SQLを使用してこの種のプロファイリングを行う方法は?利用可能なヘルパースクリプトはありますか?データクリーニングとETLの前に、この種の探索的データ分析をどのように行いますか?

4

3 に答える 3

2

データをステージング システムにロードし、SSIS のデータ プロファイラー タスクを使用します。このリンクhttp://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/を使用して、データ分析の方法を確認してください。お役に立てれば。

于 2012-10-11T10:14:05.030 に答える
0

この目的に適したツールを見つけました: Datacleaner。これは、私が EDA プロセスでデータに対してやりたいことのほとんどを行うようです。

于 2014-05-08T13:46:35.880 に答える