問題タブ [data-quality]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - データ品質を測定するためのテクニックとプラクティスは何ですか?
物理的な「もの」を説明する大量のデータがある場合、そのデータが表すはずの「もの」にどの程度適合しているかを測定するにはどうすればよいでしょうか?
例として、12 個のウィジェットを保持するクレートがあり、各ウィジェットの重量が 1 ポンドであることがわかっている場合、ケースの重量がおそらく 13 ポンドであることを確認するデータ品質の「チェック」が必要です。
別の例として、ランプとそのランプを表すイメージがある場合、ランプのように見える必要があります。おそらく、画像の寸法はランプの寸法と同じ比率である必要があります。
画像を除いて、私のデータは 99% テキスト (高さ、幅、色など) です。
私は学校で AI を勉強しましたが、それ以外のことはほとんどしていません。
標準的な AI 技術は進むべき道ですか? もしそうなら、どのように問題をアルゴリズムにマッピングしますか? 一部の言語は他の言語よりも簡単ですか? 彼らはより良いライブラリを持っていますか?
ありがとう。
data-quality - 名前/住所データを照合するための無料、低コスト、またはオープンソースのツールはありますか?
この質問は、名前/住所データを照合するためのツールに関連しています。SAS、Oracle、Microsoftなどが提供する多数の商用ツールがあり、複数のソースからの個人または企業の名前を重複排除またはマージすることができます。
しかし、前述の質問に対する回答を読んだ後、なぜ一見興味深い問題が、その問題に取り組むことができるオープンソースプロジェクトについて言及する回答を受け取らなかったのか疑問に思いました。
いわゆる「レコードのリンク」、「レコードのマージ」、または「クラスタリング」を実装するためのオープンソースプロジェクトまたはアルゴリズムを知っていますか?
usability - 長いアカウント番号を受け入れるためのベストユーザビリティプラクティス
ユーザーは最近、私たちのWebサイトの19桁のアカウント番号が長さの4つの個別のテキストボックスに分割された理由について質問しました(OK、不満)[5,5,5,4]
。元のデザイナーではなかったので、質問に答えることはできませんでしたが、データ品質を維持し、おそらくより良いユーザーエクスペリエンスを提供するために行われたと常に思っていました。
他のより一般的な例には、市外局番付きの電話([3,3,4]に対して連続10桁)およびもちろんSSN([3,2,4]に対して9桁)が含まれます。
このトピックに関して既知の基準があるかどうか疑問に思いましたか?ID番号はいつ分割しますか?特にユーザーエクスペリエンスとデータ入力エラーの最小化に関して。
database - データ品質データベースモデル
データ品質のためにデータベースに接続するデータベースモデルの例が必要です。答えの最良の形式は、少なくともMySQLで実行可能なDDLです。他のRDMSDDLは問題ありません。コードの移植を求める別の質問を投稿します。
良い説明は大きなプラスになります。
質問、コメント、フィードバックなど-コメントだけ、ありがとう!
csv - データ品質チェックに利用できるソフトウェア
カスタム ルールで大量のデータ ファイル (.csv) を操作できるソフトウェア オプションを特定したいと考えています。フィールド、およびその他のカスタム ルール。任意のガイダンスをいただければ幸いです。
oracle - Soundex、Jaro Winkler、およびEdit Distance(UTL_MATCH)を使用したOracleの重複列値の照合
データベース内の重複する人物レコードを照合するための信頼できる方法を見つけようとしています。データにはいくつかの深刻なデータ品質の問題があり、私も修正しようとしていますが、それを実行できるようになるまで、取得したデータでスタックします。
私が利用できるテーブルの列は次のとおりです。
このSOUNDEX
用途では機能が比較的制限されていますが、UTL_MATCH
パッケージはJaroWinkerアルゴリズムを使用してより良いレベルのマッチングを提供しているようです。
車輪の再発明ではなく、このタイプのデータを照合するための信頼できる方法を実装した人はいますか?
対処すべきデータ品質の問題:
- 郵便番号は必須ですが、必ずしも完全に入力されているとは限りません。
- アドレスデータの品質は比較的低く、アドレスは固定形式で入力されていません(つまり、line1が "Flat 1"である場合と、line1が "Flat1、22 Acacia Ave"である場合があります)。
- フォアネーム列には、イニシャル、フルフォアネーム、または複数のフォアネームを含めることができます。
たとえば、私は考えていました:
すべてのアドレスフィールドを連結し、Jaro Winklerアルゴリズムを完全なアドレスに適用し、一緒に連結されたフルネームの同様のテストを組み合わせます。
誕生日を直接比較して一致させることもできますが、大量のデータがあるため、これに一致させるだけでは不十分です。
Oracle 10gR2EnterpriseEdition。
役立つ提案があれば歓迎します。
regex - データウェアハウスのデータ品質のアルゴリズム
データウェアハウスのデータ品質をチェックするための優れたアルゴリズム/方法を探しています。したがって、値の可能な構造を「認識」し、値がこの構造のメンバーであるかどうかをチェックして、正しいか正しくないかを判断するアルゴリズムが必要です。
正規表現を定義し、各値が適合するかどうかを確認することを考えました。
これは良い方法ですか?いくつかの良い選択肢はありますか?(研究論文はありますか?)
database - 「データの完全性」と「データの品質」という用語に違いはありますか?
今日のインタビューでこの質問をされたのですが、どう答えたらいいのかわかりませんでした。
誰でも違いについての洞察を提供できますか?
informatica-powercenter - Informatica Data Quality - 一致分析
重複分析要件では、入力データに 1418 レコードがあり、そのうち 1380 レコードが重複レコードです。
PowerCenter と統合された IDQ で一致分析 (Key Generator、Matcher、Associator、Consolidator を使用) を使用すると、8 つのレコードを除いてすべての重複が排除されました。
これらのレコードを除外してワークフローを実行すると、前回の実行で重複が発生しなかった他のレコードに重複が表示されます。
この不一致が発生する理由を誰か教えてください。