regex - データウェアハウスのデータ品質のアルゴリズム

Question

データウェアハウスのデータ品質をチェックするための優れたアルゴリズム/方法を探しています。したがって、値の可能な構造を「認識」し、値がこの構造のメンバーであるかどうかをチェックして、正しいか正しくないかを判断するアルゴリズムが必要です。

正規表現を定義し、各値が適合するかどうかを確認することを考えました。

これは良い方法ですか？いくつかの良い選択肢はありますか？（研究論文はありますか？）

score 3 · Accepted Answer

各ファクトテーブルレコードをさらに説明するために、データ品質ディメンションと呼ばれる特別なディメンションを追加することを提案する著者もいます。

その場合、データ品質ディメンションの一般的な値は、「正常値」、「範囲外の値」、「可能性の低い値」、「検証済みの値」、「未確認の値」、「不確実な値」になります。</ p>

score 3 · Accepted Answer

DataCleaner（http://datacleaner.eobjects.org）のような専用のデータ品質ツールを使用することをお勧めします。これは私がかなり多くの作業を行ってきました。

制約などの厳密なルールをチェックするだけでなく、データのプロファイルを提供し、自分で不整合を簡単に調査して特定できるツールが必要です。たとえば、文字列値のパターンを示す「パターンファインダー」を試してみてください。これは、外れ値や誤った値を明らかにすることがよくあります。このツールを使用して、値を変換したり、値から情報を抽出したり、サードパーティのサービスを使用してデータを強化したりして、データを実際にクレンジングすることもできます。データ品質を改善するために頑張ってください！

regex - データウェアハウスのデータ品質のアルゴリズム

2 に答える 2

Related

Reference