1

顧客の 1 人が、各テーブルの各データベース レコードをチェックしたいと考えています。問題は、データベースには現在数十のテーブル (50 以上) があり、各テーブルにはすでに数千のレコードがあることです。

お客様が実行したい基本的なチェックは、各テーブルのどの列に null 値があるかをチェックすることです。私たちの顧客は、プラットフォームのユーザーが基本的な入力のみを入力している場合、ユーザーがプラットフォームで利用可能な入力を十分に活用していないことを意味する可能性があると想定しています.

この要件を満たす最善の方法は何でしょうか?

私はすでにこれを統計的に行うことを考えていました:

  • Table1 には、次の空の列 (Column1、Column2、Column3) を持つ 30 のレコードがあります。
  • データベース テーブルの 30 % に null 値のレコードがあります
4

1 に答える 1

2

これがあなたが提起した質問に実際に答えているわけではないことはわかっていますが、「null」をチェックするだけで要件が開始されますが、終了する可能性は低いと思います.

私が多くのデータで行ったほとんどのプロジェクトでは、各テーブルのビジネス ロジックと各テーブルの各フィールドを持つ検証フレームワークを構築することになりました。

たとえば、多くのレコードに偽の電子メール アドレスが含まれていることがわかったので、それらを検証するスクリプトを作成しました (最初は非常に単純なことで、ドメインが存在し、「test.com」、「aaa.com」のいずれでもないことを確認します)。 "、"qwerty.com" など)。また、偽の電話番号を取得していることにも気付いたので、電話番号が明らかに作成された番号 (123-456789) と一致するかどうかを確認しました。

面倒なことですが、企業がデータの品質を理解したいのであれば、それが唯一の方法です。

最終的に、それぞれが「疑わしい」レコードのリストと、それらを疑う理由を吐き出す小さな SQL スクリプトを何十個も作成することになりました。見栄えはよくありませんでしたが、拡張や実行が容易で、意思決定を行うのに十分な情報をビジネスに提供しました。

于 2012-05-23T11:23:03.780 に答える