2

私の質問の一部は、問題についてもう少し理解を深めることであるため、質問のタイトルはおそらく正しくありません。

データベースにインポートされるデータ (簡単な例: Access データベースへの Excel テーブル) が同じスキーマを使用して提供され、ビジネス要件にも有効であることを確認する利点を探しています。

正規化されたデータを含まない Excel テーブルと、正規化されたテーブルを含む Access データベースがあります。

Excel のテーブルは複数のサード パーティから提供されていますが、相互に、またはデータベースと同じ形式に固執するサード パーティはありません。

ソースの中には、関連するすべてのデータを提供していないものもあります。

ご提供可能例

contact_key, date, contact_title, reject_name, reject_cost, count_of_unique_contact

count_of_unique_contact は個別の contact_title から派生したものであり、インポートしないでください。contact_key が提供されない場合があります。タイトルは不明な場合があり、「n/a」、「name = ??1342」、「#N/A」などランダムに渡されます。reject_name のスペルが間違っていることがよくあります。フィールドが提供されないこともあります。たとえば、date と contact_key がありません。

上記の問題を説明するのに役立つ情報を見つけようとしています。日付が指定されていない月の不合格コストの傾向をレポートできないなど、データベースに有用なデータを保持することが困難になる誤ったデータまたはフィールドにのみ関連する問題。Excel ファイルの正規化は、私が利用できるオプションではありません。

ビジネス要件に合わせて Excel ファイルの値とフィールドを要求し、それらを送信するすべてのサード パーティに対して同じ形式にすることを望んでいますが、その要求は聞き入れられません。

偽のデータを入力し、無効な/既存の拒否/連絡先を常にチェックすることは間違っており、それを行うことは失敗するか、貧弱なシステムの継続的なメンテナンスなしではせいぜい困難になることをクライアントに説明したい.

誰でもこの問題に関する情報を持っていますか?

ありがとう

4

1 に答える 1

3

これはよくある問題です。これは、データ処理界では「ガベージ イン、ガベージ アウト」と呼ばれます。基本的に、あなたが直面しているのは、与えられたデータの質が悪いということです。問題は、このデータを使用して有用な情報を抽出することが (不可能ではないにしても) 難しいことであると認識するのは正しいことです。

ある程度、これはソースで修正する必要がある問題です。データのソースが何であれ、データの品質を改善する必要があることを確信させる必要があります。短期的には、データをサニタイズできます。この用語は、悪いエントリを削除または消去して、残りのデータ (「良い」データ) をデータベースにインポートできるようにすることを指します。データの何パーセントが不良であるかによって、サニタイズされたデータをインポートすると、それを使用して有用なことができる場合とできない場合があります。

ある時点で、データの品質について経営陣の関心を引いていないため、データの品質が悪いためにシステムが意図したとおりに機能していないことを経営陣に示す必要があります。その時点で取得するデータの品質を向上させるには、その時点でプロセスを改善する必要があります。ただし、それまでは、より良いデータを求め続けてください。データをサニタイズするプロセスを調査し、残りのデータで何ができるかを確認してください。幸運を!

于 2009-06-16T00:05:02.233 に答える