0

コンセンサスとの違いを特定するために、複数のデータセットを調整しようとしています。それぞれにおそらく 30,000 レコードの同じデータが 100 セット存在する可能性があります。各セットには同じ列がありますが、同じ行がない場合があります。つまり、Person1 のレコードは 1 つのセットにのみ存在する場合もあれば、すべてのセットに存在する場合もあります。異なるレコードのみを特定し、その違いを報告したいと考えています。おそらく例を挙げたほうが簡単でしょう。

セット1:

  • 人 性別 生年月日 給与等
  • Person1 M 12/12/2000 100000 など
  • Person2 F 11/11/1999 200000 など

    セット 2:

  • 人 性別 生年月日 給与等
  • Person2 F 11/11/1999 250000 など
  • Person3 M 1998 年 10 月 10 日 150000 など

    セット3:

  • 人 性別 生年月日 給与等
  • Person1 M 12/12/2000 100000 など
  • Person2 F 11/11/1999 250000 など
  • Person3 M 1998 年 10 月 10 日 150000 など

    Set1 の Person2 の給与がコンセンサスとは異なることを報告したいと思います (Set2 と Set3 は 250000 ですが、Set1 は 200000 です)。Person1 または Person 3 については、すべてのセットが同一の情報を持っているため、何も報告されません。

    これを行うのに最適なテクノロジーは何ですか? SQL ステートメントを含むリレーショナル データベース? ある種のベクターDB?ハドゥープ?統計ソフト?

    前もって感謝します、

    ロビン

  • 4

    0 に答える 0